技术拓荒录
作者:大卫
https://zhuanlan.zhihu.com/p/1994770185417154675
跳出具体技术领域的视角,什么样的底层数据格式是3D 空间模态的大一统的表征方法,尤其是站在当下大模型在统一各种子问题的背景下。这个思考会对后续的3D 空间模态工作提供一个更开放的视角。
从当前WorldLabs Marble 等商业产品的呈现上观察,既有对统一模态表征的探索,又同时考虑了兼容当下各种子问题领域的数据格式(3dgs, mesh, point cloud),编者相信随着更多 Open Marble 类架构层面的探索,行业会逐渐清晰。
图1:机器人学中3D场景表示的发展时间线与应用分类
对于机器人而言,“看见”只是第一步,真正关键的是如何“理解”它所看见的三维世界。这种理解的核心,便是一种被称为 “3D场景表示” 的技术——它相当于机器人大脑内部构建环境模型的语言和数据结构。
从稀疏的点云到连续的神经场,再到如今炙手可热的基础模型,机器人“描述”世界的方式正在经历一场深刻的变革。那么,面对导航、避障、抓取等五花八门的任务,究竟哪种“语言”才是最优解?是专精于单一模块的传统几何表示,还是有望一统江湖的神经基础模型?
近日,一篇题为《What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models》的综述论文,对这一问题进行了全面而深入的探讨。
论文: What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
链接: https://arxiv.org/abs/2512.03422
开源项目: https://github.com/dtc111111/awesome-representation-for-robotics
该研究由上海交通大学、南洋理工大学、中国科学院自动化研究所、波恩大学、萨拉戈萨大学等国内外顶尖机器人研究机构的学者联合完成。
论文不仅系统梳理了点云、体素、网格、神经辐射场(NeRF)、3D高斯泼溅(3DGS)等七大类场景表示方法,更创造性地按照机器人五大核心功能模块(感知、建图、定位、导航、操作)对其进行了横向评测。
研究指出,虽然当前系统仍依赖传统稀疏表示,但融合高级语义与语言先验的神经基础模型,正成为实现通用具身智能的“统一解决方案”关键候选。
01 机器人如何“看见”世界?七种主流“语言”的演进与比较
机器人对三维世界的认知,始于传感器数据,成于内部的场景表示。这种表示方式的演进,直接反映了机器人智能水平的提升。
早期机器人受限于传感器和算力,多使用2D栅格地图。随着激光雷达(LiDAR)和RGB-D相机的普及,点云(Point Cloud) 和体素网格(Voxel Grid) 成为主流。点云直接、稀疏,体素则结构化、易于处理,但它们都属于离散表示,难以刻画连续、稠密的场景细节。
为了获得更精确的几何,有符号距离函数(SDF) 被引入,它用一个连续函数描述空间中任意点到物体表面的距离。而为了理解物体间的关系,场景图(Scene Graph) 这种层次化的图结构开始流行,它将物体作为节点,关系作为边,编码了丰富的语义信息。
图2:近年来,机器人学界对神经场景表示(NeRF, 3DGS, 基础模型)的关注度急剧上升
真正的范式转变发生在神经渲染兴起之后。神经辐射场(NeRF) 首次用一个小型多层感知机(MLP)隐式地建模了整个场景的几何与外观,实现了惊艳的新视角合成效果。其核心公式描述了从空间坐标 和观察方向 到颜色 和体密度 的映射:
然而,NeRF的训练和渲染速度较慢。随后,3D高斯泼溅(3DGS) 横空出世,它采用数百万个可学习的3D高斯椭球体来显式地表征场景,在保持高质量的同时实现了实时渲染,极大地推动了神经表示在机器人领域的落地。
与此同时,受自然语言处理成功的启发,基于标记(Tokenizer)的基础模型 开始探索将3D场景编码为一组离散的语义标记。这种表示具有极强的泛化能力和与大型语言模型(LLM)无缝结合的优势,为开放世界的理解与交互打开了大门。
图4:七种主流3D场景表示在多个维度的综合比较
那么,这些“语言”各有什么优劣?论文从多个维度进行了系统对比(图4):
• 数据形式:点云、3DGS是显式的;NeRF、SDF是隐式的;基础模型是标记化的。
• 连续性:SDF、NeRF是连续的;点云、体素是离散的。
• 内存与计算:点云、体素相对轻量;NeRF训练慢但推理尚可;3DGS内存占用大但渲染极快;基础模型参数量巨大。
• 核心能力:几何表示(点云、SDF强),照片级真实感(NeRF、3DGS强),语义与推理(场景图、基础模型强)。
没有一种表示是完美的,最佳选择高度依赖于具体的机器人任务。
02 模块化拆解:五大核心任务如何挑选场景表示?
机器人是一个复杂的系统,通常被分解为感知、建图、定位、操作、导航等模块。论文的核心贡献之一,便是深入分析了不同表示在这些模块中的适用性。
感知模块:从“看到”到“看懂”
感知模块要求场景表示能支持物体检测和场景理解。
传统几何表示(点云/体素)是当前主流。例如,PointPillars 将点云转化为“柱体”进行高效检测;VoxelNet 则直接在体素网格上应用3D卷积。它们速度快,但在复杂遮挡、无纹理区域表现不佳。
神经表示(NeRF/3DGS)提供了新思路。NeRF-Det 利用NeRF的多视图一致性提升检测精度;6DGS 则利用3DGS显式几何进行6D物体姿态估计。它们能更好地耦合几何与外观,但计算成本更高。
基础模型正在改变游戏规则。像 Grounding DINO、YOLO-World 这样的模型,实现了开放词汇的检测,机器人能根据“拿起那个红色的马克杯”这样的指令直接定位目标,无需预先定义所有类别。
建图与定位模块:构建世界的“数字孪生”
这是机器人自主性的基石,要求表示精确、高效且能支持长期运行。
SLAM(同步定位与建图):传统方法(如ORB-SLAM)依赖稀疏特征点,速度快、鲁棒性强,但地图不稠密。基于NeRF(如 iMAP, Nice-SLAM)和3DGS(如 SplaTAM)的SLAM能构建稠密、逼真的地图,并实现基于渲染的相机跟踪,为导航和交互提供了更丰富的信息,但实时性仍是挑战。
全局定位:在已知地图中确定自身位姿。传统方法依赖点云配准(ICP, NDT)。新兴方法如 iComMa 利用3DGS地图的渲染图像与当前图像进行匹配来优化位姿,展示了神经表示的潜力。
操作与导航模块:与物理世界交互
这两个模块对场景表示的几何精度、实时性和语义关联能力提出了最高要求。
操作(如抓取):传统方法基于点云(Contact-GraspNet)或体素SDF预测抓取位姿。神经表示如 Dex-NeRF、GaussianGrasper 则能利用逼真的场景模型进行更精细的抓取规划和模拟。基础模型如 VoxPoser,能直接将“把碗放进微波炉”这样的自然语言指令,转化为在3D价值地图上的运动规划。
导航:传统导航依赖于占据网格(如 OctoMap)或ESDF地图(如 Voxblox)进行路径规划。基于NeRF/3DGS的导航(如 NeRF-Navigation, GaussNav)能利用其稠密几何和语义信息进行更智能、更安全的规划与探索。基础模型则擅长高层任务分解与开放词汇导航(如 NLMap)。
表1:不同场景表示在机器人各模块中的典型应用与特点总结
03 未来之路:统一的基础模型是终极答案吗?
通过对现有技术的全景式扫描,论文清晰地指出,当前模块化、碎片化的场景表示体系,虽然针对性强,但已成为迈向通用机器人智能的瓶颈。每个模块使用不同的“语言”,导致系统复杂、信息割裂、难以适应开放环境。
未来的发展方向,正指向能够统一感知、推理与行动的“基础模型”。 这类模型具备几个关键特征:
• 统一表示:使用一种通用的标记化或隐式表示,同时编码几何、外观、语义和物理属性。
• 多模态融合:无缝结合视觉、语言、深度等多传感器信息。
• 涌现能力:通过在海量互联网数据与仿真数据上训练,获得零样本泛化、复杂推理和任务规划的能力。
• 端到端学习:减少手工模块设计,让机器人以更接近人类的方式从交互中学习。
图3:论文提出的机器人3D场景表示总体框架,涵盖感知、建图、定位、交互等核心模块
然而,通往通用基础模型的路上布满荆棘:
数据稀缺:与文本和图像相比,高质量的机器人交互数据(尤其是涉及物理操作的)极为稀少。
实时性挑战:动辄数十亿参数的基础模型,如何在资源受限的机器人本体上实现实时推理?
仿真到现实的鸿沟:依赖仿真数据训练的世界模型,如何应对真实世界复杂的物理和不确定性?
为此,论文提出了几个重点研究方向:利用生成模型创造合成数据、发展更高效的模型压缩与部署技术、以及探索“硬件-算法协同设计” 以专门适配机器人计算平台。
04 结论:一场关于机器人“世界观”的范式转移
这篇综述为我们描绘了一幅清晰的图景:机器人学中3D场景表示的发展,正从离散、几何驱动的传统方法,经由连续、神经渲染驱动的中间阶段,迈向统一、语义与推理驱动的基础模型时代。
尽管NeRF和3DGS在逼真重建和实时性上取得了突破,但它们本质上仍是“感官”的延伸。而基础模型带来的,是“认知”的飞跃。它让机器人不仅能精确重建一个房间的几何,还能理解“这是一个客厅,沙发很柔软,咖啡杯放在桌上可能还有余温”这种富含语义、常识和物理直觉的概念。
最终,回答“什么是最佳表示”这个问题,答案可能不再是某个具体的技术点,而是一个动态的、任务自适应的统一表征框架。在这个框架下,机器人能像人类一样,自由地调用最合适的“思维工具”去感知、理解和改造它所处的世界。
这场范式转移的终点,或许就是真正通用具身智能的黎明。
来源:青稞具身智能