当前位置: 首页 » 资讯 » 新科技 » 正文

香港科技大学团队让计算机像人类一样理解3D世界

IP属地 中国·北京 科技行者 时间:2025-12-22 22:16:46


这项由香港科技大学的王语心、柯磊等研究者,联合腾讯AI实验室、中文大学、浙江大学和南京大学的科学家共同完成的研究,发表于2025年12月18日的arXiv预印本平台(编号:arXiv:2512.16561v1),为AI领域带来了一次重要突破。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你看到一张照片时,你的大脑能够瞬间理解照片中每个物体的空间位置关系。比如看到厨房照片,你能立刻判断出冰箱在灶台的左边,盘子在桌子上方,而苹果就在盘子里。这种看似简单的能力,实际上是人类视觉系统的一项超级能力。然而,现在的AI视觉系统却像是戴着"平面眼镜"的机器人,它们只能看到平面图像,却无法真正理解物体在三维空间中的真实位置和相互关系。

研究团队发现,这就好比让一个从未离开过平面世界的二维生物来理解我们的三维世界一样困难。现有的AI系统在回答"哪个杯子离你更近"这样的问题时,往往只能依靠猜测或者死记硬背的知识,而不是真正"看到"并理解空间关系。这种局限性严重影响了AI在机器人、自动驾驶、增强现实等需要精确空间理解的领域的应用。

为了解决这个难题,香港科技大学的研究团队开发了一个名为N3D-VLM的革命性AI系统。这个系统的特别之处在于,它不再像传统AI那样直接从平面图像跳到最终答案,而是首先学会了"看见"物体的3D边界框(可以理解为给每个物体画一个透明的立体盒子),然后基于这些精确的空间信息进行推理。就像给AI装上了一副"立体眼镜",让它能够真正感知深度和空间关系。

这项研究的创新点令人瞩目。研究团队不仅创造了一个能够原生理解3D空间的AI系统,还开发了一套巧妙的数据生成方法,将大量现有的2D图像数据转换成3D训练素材。更重要的是,他们构建了一个包含2000个问题的全新测试基准N3D-Bench,专门用来评估AI系统的三维空间理解能力。实验结果显示,N3D-VLM在多项空间推理任务上都达到了目前最先进的水平,在某些数值计算任务上的准确率甚至超过了90%。

一、传统AI的"平面视界"困境

当前的人工智能就像一个只能看到影子的哲学家。古希腊哲学家柏拉图曾经讲过一个洞穴比喻:被困在洞穴中的人只能看到墙上的影子,却无法理解真实物体的立体形状和空间关系。现在的AI视觉系统恰恰面临着同样的困境。

大多数现代视觉语言模型,包括那些在图像理解方面表现优异的系统,本质上都是基于2D图像进行训练和推理的。当你问它们"哪个物体更靠近相机"或者"如果我站在沙发旁边,电视机在我的哪个方向"这样的问题时,它们只能通过一些表面线索来猜测答案。比如,它们可能会认为图像中看起来更大的物体就更近,或者根据物体的遮挡关系来推断前后位置。这种推理方式就像盲人摸象,往往不够准确。

研究团队观察到,这种局限性在实际应用中造成了严重的问题。在机器人导航领域,如果机器人无法准确判断障碍物的实际距离和高度,就可能发生碰撞。在自动驾驶场景中,如果系统无法精确理解其他车辆的空间位置,就可能做出错误的驾驶决策。在增强现实应用中,如果无法准确定位虚拟物体在真实空间中的位置,用户体验就会大打折扣。

为了解决这个根本性问题,研究人员意识到需要一种全新的方法。他们认为,真正的3D空间理解应该分为两个核心步骤:首先是3D物体定位(就像用透明盒子准确框出每个物体的立体边界),然后是基于这些精确空间信息的推理。这种方法的优势在于,它让AI系统的推理过程变得透明和可解释,而不再是一个神秘的"黑盒子"操作。

当前市场上虽然也有一些尝试处理3D信息的AI系统,但它们大多存在明显的限制。有些系统依赖于额外的传感器设备(如激光雷达或深度相机),这增加了成本和复杂性。有些系统只能处理特定类型的场景(如室内环境或特定物体类别),缺乏通用性。还有一些系统虽然能够预测3D信息,但无法进行后续的空间推理,就像只会测量却不会思考的测量仪器。

研究团队发现,现有方法的另一个重大问题是训练数据的稀缺。高质量的3D标注数据获取成本极高,需要专业设备和大量人工标注工作。相比之下,2D图像数据却非常丰富,几乎触手可及。这种数据不平衡导致3D视觉系统很难获得足够的训练素材来达到理想的性能水平。

正是基于这些观察和分析,研究团队决定开发一个能够同时解决数据稀缺和方法局限性的综合解决方案。他们的目标是创造一个既能准确进行3D物体定位,又能基于定位结果进行复杂空间推理的统一AI系统。

二、N3D-VLM:给AI装上"立体眼镜"

N3D-VLM系统的工作原理可以用一个生动的比喻来理解:它就像一个同时具备精密测量师和空间几何专家能力的AI助手。当你给它一张普通照片时,它首先会像一个经验丰富的测量师一样,仔细测量照片中每个物体的精确三维位置和尺寸,然后像一个几何专家一样,基于这些测量数据来回答各种空间关系问题。

这个系统的核心架构设计非常巧妙。研究团队没有让AI直接从RGB图像跳跃到最终答案,而是增加了一个关键的中间步骤:3D边界框预测。这就好比在解数学应用题时,先把题目中的数据整理清楚,然后再进行计算,而不是一上来就猜答案。

具体来说,N3D-VLM接收两种输入:一张普通的RGB彩色图像,以及对应的深度图。深度图可以通过现有的单目深度估计技术自动生成,无需额外的硬件设备。这就像给每个像素点都标上了"距离标签",告诉系统这个点离相机有多远。

系统的视觉编码部分特别有趣。研究团队设计了一种"3D感知的视觉编码器",它能够将平面的图像像素信息和深度信息巧妙地融合在一起。这个过程就像是将一张平面地图转换成立体沙盘模型。编码器首先将每个像素点从2D坐标转换为3D空间坐标,然后使用一种叫做"位置编码"的技术,将空间信息直接嵌入到图像特征中。

最有趣的是系统输出3D边界框的方式。传统的3D检测系统通常直接输出3D坐标,但N3D-VLM采用了一种更聪明的策略:它输出的是图像平面上的2D投影坐标加上深度信息。这种表示方法有两个优势:首先,它与系统的视觉编码方式更加一致;其次,由于基础模型本身就是在2D视觉数据上训练的,这种表示方法能够更好地利用预训练知识。

系统使用一种结构化的语言格式来描述3D边界框。每个检测到的物体都会用这样的格式表示:bbox(id, class, u, v, z, sx, sy, sz),其中id是物体编号,class是物体类别,(u, v)是物体中心在图像上的投影位置,z是深度,sx、sy、sz分别是物体在三个空间维度上的尺寸。这种表示方法既简洁又完整,就像用一套标准的"身份证信息"来描述每个物体的空间属性。

训练策略方面,研究团队采用了两阶段的训练方法。第一阶段专注于3D物体定位能力的培养,让系统学会准确预测物体的3D边界框。第二阶段则训练空间推理能力,让系统学会基于已经定位的3D物体进行各种空间关系的推理和问答。这种分阶段训练策略就像先让学生学会使用测量工具,然后再教他们如何分析测量结果一样。

系统在推理时也体现出了独特的优势。当用户提出空间相关问题时,N3D-VLM会首先自动检测并定位相关物体,然后基于精确的3D坐标信息进行计算和推理。整个推理过程是透明和可解释的,用户可以清楚地看到系统是如何得出结论的。这就像看到了老师解题的完整过程,而不是只看到最终答案。

更令人印象深刻的是,N3D-VLM支持两种不同的使用模式。第一种是"端到端模式",用户直接提出空间问题,系统自动完成定位和推理的全过程。第二种是"交互模式",用户可以先要求系统进行3D定位,查看定位结果后再提出后续问题。这种灵活性让系统既适合快速查询,也适合需要精确验证的应用场景。

三、巧妙的数据炼金术:化2D为3D

面对3D训练数据稀缺的挑战,研究团队展现出了真正的"炼金术师"智慧。他们没有选择昂贵且耗时的3D数据收集路线,而是开发了一套巧妙的方法,能够将丰富的2D标注数据"升级"为高质量的3D训练素材。这个过程就像是将平面的拼图碎片重新组装成立体的雕塑作品。

这套数据生成流程的核心思路非常直观:既然2D数据集已经告诉我们物体在图像中的位置和类别,那么只要能够获得准确的深度信息和相机参数,就能推算出物体在三维空间中的真实位置。研究团队选择了一个名为Moge-2的先进深度估计模型来完成这项工作。这个模型能够从单张RGB图像中预测出高质量的深度图,同时还能估计相机的内在参数。

具体的转换过程充满了技术巧思。研究团队首先使用SAM 2这样的先进分割模型,为图像中的每个标注物体生成精确的像素级分割掩码。然后,他们将这些分割掩码与深度图结合,通过相机投影变换将每个物体的2D边界转换为3D点云。最后,从3D点云中计算出物体的三维边界框。这个过程就像是从物体的影子推断出物体的真实形状和位置。

为了确保生成数据的质量,研究团队还设计了一套严格的质量控制机制。他们使用基于规则的滤波器来自动移除那些明显不合理的检测结果,比如尺寸过大或过小的边界框,或者深度值异常的物体。这种质量控制就像是工厂生产线上的质检环节,确保只有符合标准的产品才能进入下一环节。

通过这种方法,研究团队成功地从三个主要的2D数据集(COCO、OpenImages、Objects365)中生成了大约278万个3D检测样本。这个数据量是现有最大单图像3D检测数据集Omni3D的十倍以上,为系统的训练提供了前所未有的丰富素材。更重要的是,这些数据覆盖了数百个物体类别,涵盖了室内外各种场景,具有很好的多样性。

基于这个庞大的3D标注库,研究团队进一步构造了三类不同的训练数据。第一类是3D检测数据,要求系统检测图像中所有物体的3D边界框。第二类是3D定位数据,要求系统根据文本描述找到特定物体的3D位置。第三类是3D空间推理数据,要求系统基于3D定位结果回答各种空间关系问题。

3D定位数据的生成策略特别有趣。对于那些在图像中只出现一次的物体类别,系统可以直接根据类别名称进行定位。对于出现多次的同类物体,研究团队设计了更复杂的描述策略,比如"找到所有的椅子"或者使用参照表达式如"桌子旁边的椅子"。对于难以用类别名称描述的物体,他们甚至使用了在图像上画出2D边界框的方式来指定目标物体。

最令人印象深刻的是3D空间推理数据的构造过程。研究团队设计了大量的问题模板,覆盖了各种类型的空间关系,包括相对方向(左右、前后、上下)、距离比较、尺寸对比、时钟方向、绝对距离计算等。每个问题都配有基于精确3D坐标的推理过程和标准答案。这些推理过程不仅给出了最终结论,还详细展示了计算步骤,就像数学教科书中的例题解答一样。

为了让这些自动生成的问题和答案更自然,研究团队还使用大型语言模型对问题和答案进行了改写和润色。这确保了训练数据不仅在技术上准确,在语言表达上也更加自然和多样化。

这整套数据生成流程的创新性不仅在于其技术实现,更在于其可扩展性。由于2D标注数据相对容易获得,这种方法可以轻松地应用到新的数据集和物体类别上,为3D视觉研究提供了一种可持续的数据供给方案。这就像是找到了一个稳定的"数据金矿",可以持续地为AI系统的改进提供原料。

四、全新的测试标准:N3D-Bench

认识到现有评估基准的局限性,研究团队精心设计了一个名为N3D-Bench的全新测试基准。这个基准就像是为3D空间理解能力设计的"综合考试",不仅测试范围更广,难度也更高,能够更全面地评估AI系统的真实能力水平。

N3D-Bench包含了2000个精心设计的问题,这些问题覆盖了11个主要类别的空间推理任务。与现有的SpatialRGPT-Bench相比,N3D-Bench在多个维度上都实现了显著提升。首先,它涉及的物体类别从88个扩展到了264个,这意味着测试场景更加丰富多样。其次,它不再局限于两个物体之间的关系判断,而是引入了涉及三个或更多物体的复杂空间推理任务。

最有趣的是,N3D-Bench还引入了视角变换的概念。传统的空间推理测试通常基于固定的观察视角,但现实世界中人们经常需要从不同角度思考空间关系。比如,当问题是"从相机的相反方向看,A在B的左边还是右边"时,就需要AI系统能够进行心理旋转,从另一个视角来理解空间关系。这种能力对于机器人和增强现实应用来说特别重要。

N3D-Bench的另一个创新特色是引入了链式思维推理。每个问题的标准答案不仅包含最终结论,还包含详细的推理过程。这些推理过程基于精确的3D坐标计算,展示了从原始空间信息到最终答案的完整逻辑链条。这种设计不仅有助于训练AI系统进行结构化思维,也让评估过程更加透明和可解释。

在问题类型的设计上,N3D-Bench涵盖了从基础到高级的各种空间推理任务。基础任务包括简单的方向判断(如"A在B的左边吗")和距离比较(如"A和B哪个离C更近")。中等难度的任务包括尺寸对比(如"A比B更宽吗")和绝对距离计算(如"A和B之间的距离是多少米")。高级任务则包括多物体空间配置分析和复杂的几何关系推理。

特别值得注意的是,N3D-Bench还包含了一些需要数值计算的问题。这类问题要求AI系统不仅能够判断空间关系的定性特征,还能给出精确的数值答案。比如,系统需要计算出物体的精确高度、两点间的欧氏距离,或者某个物体相对于参考点的时钟方向角度。这类问题对AI系统的精度要求极高,是真正考验3D理解能力的试金石。

在评估指标的设计上,研究团队也考虑得非常周到。对于开放式问题,他们使用GPT-4o作为自动评判员来评估答案的正确性。对于数值型问题,他们设置了合理的误差容忍范围(±25%),既保证了评估的严格性,又考虑到了实际应用中的实用性需求。对于多项选择题,则采用精确匹配的方式进行评分。

N3D-Bench的构建过程也体现了严格的质量控制。所有问题都经过了人工审核,确保问题表述清晰、答案准确无误。研究团队还特别注意了问题的平衡性,确保不同类型、不同难度的问题都有适当的代表性。这种精心设计的平衡性让N3D-Bench成为了一个公平而全面的测试平台。

从实际应用的角度来看,N3D-Bench不仅是一个评估工具,更是推动整个领域发展的催化剂。它为研究者提供了一个统一的比较标准,让不同方法之间的性能对比变得更加客观和可信。同时,它也指明了未来研究的重要方向,鼓励研究者开发更强大、更通用的3D空间理解系统。

五、令人瞩目的实验成果

研究团队进行的大规模实验验证展现出了N3D-VLM的卓越性能。这些实验就像是一场全面的能力测试,从多个角度证明了这种新方法的有效性和优越性。

在3D空间推理任务上,N3D-VLM的表现可以说是令人刮目相看。在新构建的N3D-Bench测试基准上,该系统在开放式问题上达到了89.7%的准确率,在数值计算问题上更是达到了惊人的92.1%的准确率。这意味着,AI系统现在几乎可以像人类一样准确地理解和计算3D空间关系了。

更令人印象深刻的是与现有先进系统的对比结果。以数值计算任务为例,即使是表现优异的Qwen3-VL-8B系统,在N3D-Bench上的准确率也只有36.3%,而N3D-VLM达到了92.1%,提升幅度超过了150%。这种巨大的性能差距清楚地显示了原生3D理解能力的重要性。

在传统的SpatialRGPT-Bench测试上,N3D-VLM同样表现出色。在开放式问题上达到了95.7%的准确率,在数值问题上达到了78.0%的准确率。这些结果不仅超越了专门针对空间推理设计的SpatialRGPT系统,也超过了包括GPT-4o和Gemini-2.5-Flash在内的商业闭源系统。

特别有趣的是,研究团队还在CV-Bench-3D这个多项选择题基准上进行了测试。N3D-VLM在这个测试上达到了93.3%的准确率,再次证明了其在不同题型上的稳定表现。这种一致性表明,系统的优秀性能不是偶然现象,而是其核心方法论的必然结果。

在3D物体定位任务上,N3D-VLM也展现出了优异的性能。研究团队使用了多个经典的参照表达理解数据集(RefCOCO系列)进行测试。结果显示,N3D-VLM在投影IoU指标上达到了0.59的性能,显著超过了Qwen3-VL-8B的0.37。在投影中心偏移指标上,N3D-VLM的误差只有0.06,而对比系统的误差为0.16,准确度提升了近3倍。

为了更深入地理解性能提升的来源,研究团队还进行了详细的消融实验。这些实验就像是拆解机器来研究各个零件的作用一样,帮助确定哪些设计选择对最终性能贡献最大。

消融实验的结果揭示了几个重要的设计洞察。首先,深度信息的加入对性能提升起到了关键作用。当移除深度输入时,系统的F1得分从12.8下降到9.4,证明了3D感知编码的重要性。其次,在像素空间中预测物体中心坐标比直接预测相机坐标系下的3D坐标更有效,这可能是因为基础模型更熟悉2D图像空间的表示方法。

最有说服力的是训练数据规模对性能的影响。当训练样本从34万增加到170万时,系统的F1得分从12.8大幅提升到22.9,几乎翻了一倍。这个结果证明了数据生成管道的价值,也说明了大规模数据对于训练强大3D理解系统的重要性。

研究团队还专门设计了实验来验证3D定位能力对空间推理的贡献。他们将N3D-VLM的3D定位结果提供给Qwen3-VL系统,让后者基于这些精确的3D信息进行推理。结果显示,有了准确的3D定位信息,Qwen3-VL的空间推理准确率从原来的36.3%提升到了54.6%,提升幅度达到50.4%。这个实验巧妙地证明了"先定位,后推理"这种分步骤方法的有效性。

另一个有趣的对比实验是将N3D-VLM与端到端训练的版本进行比较。研究团队训练了一个跳过3D定位步骤、直接进行空间问答的系统版本。结果显示,这种端到端版本的性能明显逊色于分步骤的N3D-VLM,再次证明了显式3D建模的价值。

定性分析结果同样令人印象深刻。研究团队展示的可视化案例表明,N3D-VLM能够在各种复杂场景中准确定位物体,包括室内家具、户外动物、密集物体群等。更重要的是,系统的推理过程完全透明,用户可以看到它是如何从3D坐标计算得出最终答案的,这种可解释性对实际应用来说非常宝贵。

这些全面而深入的实验结果不仅验证了N3D-VLM的技术优越性,也为3D视觉理解领域的未来发展提供了重要的参考和启示。它们证明,通过合理的方法设计和充分的数据准备,AI系统完全可以获得接近人类水平的3D空间理解能力。

六、技术创新的深层意义

N3D-VLM的成功不仅仅是一次技术突破,更代表了AI视觉理解领域的一次范式转变。这种转变的深层意义可以从多个角度来理解。

从方法论的角度来看,N3D-VLM体现了"显式建模"相对于"隐式学习"的优势。传统的端到端深度学习方法试图让AI系统直接从输入图像学习到输出答案的映射关系,但这种方法往往缺乏可解释性,而且在复杂推理任务上容易出现错误。N3D-VLM采用的分步骤方法则让AI系统首先构建对现实世界的显式3D表示,然后基于这种表示进行推理。这种方法不仅性能更优,而且推理过程更加透明和可信。

这种方法论的转变在AI领域具有广泛的启示意义。它表明,对于复杂的认知任务,"分而治之"的策略往往比"一步到位"更有效。人类的认知过程也是如此:我们在理解复杂场景时,通常会先识别和定位各个物体,然后再分析它们之间的关系。N3D-VLM成功地将这种人类认知模式融入到了AI系统设计中。

从数据利用的角度来看,N3D-VLM的数据生成策略展现了创新性的资源整合思路。面对3D标注数据稀缺的挑战,研究团队没有选择昂贵的数据收集路线,而是巧妙地利用了现有的丰富2D数据资源。这种"化腐朽为神奇"的能力在当前AI发展阶段具有特别重要的意义,因为它提供了一种可持续、可扩展的数据准备方案。

更深层次来看,这种数据生成方法体现了一种重要的AI研究哲学:充分利用现有知识和资源,而不是一切从零开始。通过将成熟的深度估计技术、分割技术和几何变换技术巧妙地组合在一起,研究团队创造了一个"技术生态系统",其整体效果远超各个组件的简单相加。

从应用前景的角度来看,N3D-VLM的影响可能是革命性的。在机器人领域,具备精确3D理解能力的AI系统能够更好地进行路径规划、物体抓取和人机交互。在自动驾驶领域,这种技术能够帮助车辆更准确地理解道路环境和其他交通参与者的空间位置。在增强现实和虚拟现实领域,精确的3D空间理解是实现沉浸式体验的关键技术基础。

在医疗健康领域,这种3D理解技术也有着广阔的应用前景。比如,在医学影像分析中,AI系统需要准确理解器官和病灶的三维空间关系。在手术机器人领域,精确的3D空间感知是确保手术安全和精度的重要保障。

从科学研究的角度来看,N3D-VLM提供的可解释性推理能力具有特殊的价值。在许多科学研究场景中,研究者不仅需要知道AI系统的结论,还需要理解这个结论是如何得出的。N3D-VLM的透明推理过程让它能够成为科学研究的可靠助手,而不仅仅是一个"黑盒子"工具。

从技术发展趋势的角度来看,N3D-VLM代表了多模态AI向更高层次发展的一个重要里程碑。未来的AI系统需要能够处理和理解多种类型的信息,包括视觉、文本、音频和空间信息。N3D-VLM在视觉和空间信息融合方面的成功,为构建更加全面的多模态AI系统提供了重要的技术基础和设计参考。

从更广阔的社会影响角度来看,N3D-VLM这样的技术进步可能会推动新一轮的产业变革。当AI系统具备了接近人类水平的3D空间理解能力后,许多原本需要人工完成的空间相关任务就可以实现自动化。这可能会创造出新的商业模式和就业机会,同时也需要社会为这种技术变革做好相应的准备。

这种技术突破还体现了国际科研合作的力量。这项研究汇集了来自香港、内地和多个知名机构的研究力量,展现了开放合作对于推动技术进步的重要作用。在当前全球科技竞争日益激烈的背景下,这种合作模式值得更多的推广和发扬。

说到底,N3D-VLM的成功证明了一个重要观点:AI技术的发展不应该仅仅追求性能指标的提升,更应该关注技术的可理解性、可信性和实用性。只有这样,AI技术才能真正服务于人类社会,成为推动文明进步的正面力量。

研究团队在论文中也诚实地讨论了当前方法的局限性和未来的改进方向。比如,系统在处理镜面反射时可能会产生误判,在密集物体场景中可能会遗漏某些目标。这种科学严谨的态度不仅体现了研究的诚信,也为后续研究指明了方向。

展望未来,随着深度估计技术的进一步发展,以及更多高质量数据的积累,基于N3D-VLM思路的系统性能还有很大的提升空间。同时,将这种技术与其他AI能力(如自然语言理解、常识推理等)相结合,有望创造出更加智能和实用的AI助手。

对于普通用户来说,N3D-VLM代表的技术进步意味着,在不远的将来,我们可能会拥有真正理解三维世界的AI助手。这些助手不仅能够回答"我的钥匙在哪里"这样的简单问题,还能够进行复杂的空间规划和分析,比如"如何重新布置房间让空间利用更高效"或者"这个家具放在哪个位置最合适"。这种技术普及将让人工智能真正成为人们日常生活中不可或缺的智慧伙伴。

Q&A

Q1:N3D-VLM是什么,它与传统AI视觉系统有什么不同?

A:N3D-VLM是香港科技大学开发的新型AI视觉系统,它最大的特点是具备原生的3D空间理解能力。传统AI系统只能看懂平面图像,就像只能看影子的人,而N3D-VLM能够真正理解物体的立体位置关系,就像给AI装上了"立体眼镜"。它不是直接猜测答案,而是先精确测量每个物体的3D边界框,然后基于这些准确的空间信息进行推理。

Q2:N3D-VLM的训练数据是怎么来的,为什么能达到这么大的规模?

A:研究团队开发了一套"数据炼金术",将现有的丰富2D图像数据转换成3D训练素材。他们使用深度估计技术为2D图像添加深度信息,然后通过几何变换将2D边界框升级为3D边界框。通过这种方法,他们从COCO、OpenImages等数据集中生成了278万个3D样本,比现有最大的3D数据集多了十倍以上。

Q3:N3D-VLM在实际测试中表现如何,有什么具体的应用前景?

A:N3D-VLM在多项测试中都表现出色,在空间推理的数值计算任务上准确率达到92.1%,大幅超越了现有的先进系统。它的应用前景非常广阔,包括机器人导航、自动驾驶、增强现实、医疗影像分析等领域。未来可能让AI助手真正理解三维世界,帮助人们进行空间规划和分析。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。