03-19 03:52

3D场景表示综述：从几何模型到基础模型，什么才是机器人学的最佳选择？

技术拓荒录

作者：大卫
https://zhuanlan.zhihu.com/p/1994770185417154675

跳出具体技术领域的视角，什么样的底层数据格式是3D 空间模态的大一统的表征方法，尤其是站在当下大模型在统一各种子问题的背景下。这个思考会对后续的3D 空间模态工作提供一个更开放的视角。

从当前WorldLabs Marble 等商业产品的呈现上观察，既有对统一模态表征的探索，又同时考虑了兼容当下各种子问题领域的数据格式(3dgs, mesh, point cloud)，编者相信随着更多 Open Marble 类架构层面的探索，行业会逐渐清晰。

图1：机器人学中3D场景表示的发展时间线与应用分类
对于机器人而言，“看见”只是第一步，真正关键的是如何“理解”它所看见的三维世界。这种理解的核心，便是一种被称为 “3D场景表示” 的技术——它相当于机器人大脑内部构建环境模型的语言和数据结构。

从稀疏的点云到连续的神经场，再到如今炙手可热的基础模型，机器人“描述”世界的方式正在经历一场深刻的变革。那么，面对导航、避障、抓取等五花八门的任务，究竟哪种“语言”才是最优解？是专精于单一模块的传统几何表示，还是有望一统江湖的神经基础模型？

近日，一篇题为《What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models》的综述论文，对这一问题进行了全面而深入的探讨。

论文: What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
链接: https://arxiv.org/abs/2512.03422
开源项目: https://github.com/dtc111111/awesome-representation-for-robotics
该研究由上海交通大学、南洋理工大学、中国科学院自动化研究所、波恩大学、萨拉戈萨大学等国内外顶尖机器人研究机构的学者联合完成。

论文不仅系统梳理了点云、体素、网格、神经辐射场（NeRF）、3D高斯泼溅（3DGS）等七大类场景表示方法，更创造性地按照机器人五大核心功能模块（感知、建图、定位、导航、操作）对其进行了横向评测。

研究指出，虽然当前系统仍依赖传统稀疏表示，但融合高级语义与语言先验的神经基础模型，正成为实现通用具身智能的“统一解决方案”关键候选。

01 机器人如何“看见”世界？七种主流“语言”的演进与比较
机器人对三维世界的认知，始于传感器数据，成于内部的场景表示。这种表示方式的演进，直接反映了机器人智能水平的提升。

早期机器人受限于传感器和算力，多使用2D栅格地图。随着激光雷达（LiDAR）和RGB-D相机的普及，点云（Point Cloud）和体素网格（Voxel Grid）成为主流。点云直接、稀疏，体素则结构化、易于处理，但它们都属于离散表示，难以刻画连续、稠密的场景细节。

为了获得更精确的几何，有符号距离函数（SDF）被引入，它用一个连续函数描述空间中任意点到物体表面的距离。而为了理解物体间的关系，场景图（Scene Graph）这种层次化的图结构开始流行，它将物体作为节点，关系作为边，编码了丰富的语义信息。

图2：近年来，机器人学界对神经场景表示（NeRF, 3DGS, 基础模型）的关注度急剧上升
真正的范式转变发生在神经渲染兴起之后。神经辐射场（NeRF）首次用一个小型多层感知机（MLP）隐式地建模了整个场景的几何与外观，实现了惊艳的新视角合成效果。其核心公式描述了从空间坐标和观察方向到颜色和体密度的映射：

然而，NeRF的训练和渲染速度较慢。随后，3D高斯泼溅（3DGS）横空出世，它采用数百万个可学习的3D高斯椭球体来显式地表征场景，在保持高质量的同时实现了实时渲染，极大地推动了神经表示在机器人领域的落地。

与此同时，受自然语言处理成功的启发，基于标记（Tokenizer）的基础模型开始探索将3D场景编码为一组离散的语义标记。这种表示具有极强的泛化能力和与大型语言模型（LLM）无缝结合的优势，为开放世界的理解与交互打开了大门。

图4：七种主流3D场景表示在多个维度的综合比较
那么，这些“语言”各有什么优劣？论文从多个维度进行了系统对比（图4）：

• 数据形式：点云、3DGS是显式的；NeRF、SDF是隐式的；基础模型是标记化的。
• 连续性：SDF、NeRF是连续的；点云、体素是离散的。
• 内存与计算：点云、体素相对轻量；NeRF训练慢但推理尚可；3DGS内存占用大但渲染极快；基础模型参数量巨大。
• 核心能力：几何表示（点云、SDF强），照片级真实感（NeRF、3DGS强），语义与推理（场景图、基础模型强）。
没有一种表示是完美的，最佳选择高度依赖于具体的机器人任务。

02 模块化拆解：五大核心任务如何挑选场景表示？
机器人是一个复杂的系统，通常被分解为感知、建图、定位、操作、导航等模块。论文的核心贡献之一，便是深入分析了不同表示在这些模块中的适用性。

感知模块：从“看到”到“看懂”
感知模块要求场景表示能支持物体检测和场景理解。

传统几何表示（点云/体素）是当前主流。例如，PointPillars 将点云转化为“柱体”进行高效检测；VoxelNet 则直接在体素网格上应用3D卷积。它们速度快，但在复杂遮挡、无纹理区域表现不佳。

神经表示（NeRF/3DGS）提供了新思路。NeRF-Det 利用NeRF的多视图一致性提升检测精度；6DGS 则利用3DGS显式几何进行6D物体姿态估计。它们能更好地耦合几何与外观，但计算成本更高。

基础模型正在改变游戏规则。像 Grounding DINO、YOLO-World 这样的模型，实现了开放词汇的检测，机器人能根据“拿起那个红色的马克杯”这样的指令直接定位目标，无需预先定义所有类别。

建图与定位模块：构建世界的“数字孪生”
这是机器人自主性的基石，要求表示精确、高效且能支持长期运行。

SLAM（同步定位与建图）：传统方法（如ORB-SLAM）依赖稀疏特征点，速度快、鲁棒性强，但地图不稠密。基于NeRF（如 iMAP, Nice-SLAM）和3DGS（如 SplaTAM）的SLAM能构建稠密、逼真的地图，并实现基于渲染的相机跟踪，为导航和交互提供了更丰富的信息，但实时性仍是挑战。

全局定位：在已知地图中确定自身位姿。传统方法依赖点云配准（ICP, NDT）。新兴方法如 iComMa 利用3DGS地图的渲染图像与当前图像进行匹配来优化位姿，展示了神经表示的潜力。

操作与导航模块：与物理世界交互
这两个模块对场景表示的几何精度、实时性和语义关联能力提出了最高要求。

操作（如抓取）：传统方法基于点云（Contact-GraspNet）或体素SDF预测抓取位姿。神经表示如 Dex-NeRF、GaussianGrasper 则能利用逼真的场景模型进行更精细的抓取规划和模拟。基础模型如 VoxPoser，能直接将“把碗放进微波炉”这样的自然语言指令，转化为在3D价值地图上的运动规划。

导航：传统导航依赖于占据网格（如 OctoMap）或ESDF地图（如 Voxblox）进行路径规划。基于NeRF/3DGS的导航（如 NeRF-Navigation, GaussNav）能利用其稠密几何和语义信息进行更智能、更安全的规划与探索。基础模型则擅长高层任务分解与开放词汇导航（如 NLMap）。

表1：不同场景表示在机器人各模块中的典型应用与特点总结

场景表示	感知（检测/理解）	建图与SLAM	操作	导航	核心优势	主要挑战
点云/体素	PointPillars, VoxelNet	ORB-SLAM, LOAM	Contact-GraspNet	OctoMap, Fast-Planner	计算高效，成熟稳定	稀疏/离散，缺乏语义，细节丢失
SDF/场景图	DeepSDF, 3D场景图	ElasticFusion, Hydra	体素抓取网络	Voxblox (ESDF)	几何精确，支持语义关系	内存消耗大，构建复杂
NeRF	NeRF-Det, LERF	iMAP, Nice-SLAM	Dex-NeRF, GraspNeRF	NeRF-Navigation	照片级真实感，连续表示	训练渲染慢，动态场景处理难
3DGS	6DGS, MATT-GS	SplaTAM, MonoGS	GaussianGrasper, ManiGauss	GaussNav, Splat-Nav	实时渲染，显式可编辑	内存占用大，初始重建需SfM
基础模型	Grounding DINO, YOLO-W	VGGT, DUSt3R	VoxPoser, Code as Pol.	NLMap, LM-Nav	开放词汇，强泛化，零样本	数据需求大，实时部署难，具身数据稀缺

03 未来之路：统一的基础模型是终极答案吗？

通过对现有技术的全景式扫描，论文清晰地指出，当前模块化、碎片化的场景表示体系，虽然针对性强，但已成为迈向通用机器人智能的瓶颈。每个模块使用不同的“语言”，导致系统复杂、信息割裂、难以适应开放环境。

未来的发展方向，正指向能够统一感知、推理与行动的“基础模型”。这类模型具备几个关键特征：

• 统一表示：使用一种通用的标记化或隐式表示，同时编码几何、外观、语义和物理属性。
• 多模态融合：无缝结合视觉、语言、深度等多传感器信息。
• 涌现能力：通过在海量互联网数据与仿真数据上训练，获得零样本泛化、复杂推理和任务规划的能力。
• 端到端学习：减少手工模块设计，让机器人以更接近人类的方式从交互中学习。
图3：论文提出的机器人3D场景表示总体框架，涵盖感知、建图、定位、交互等核心模块
然而，通往通用基础模型的路上布满荆棘：

数据稀缺：与文本和图像相比，高质量的机器人交互数据（尤其是涉及物理操作的）极为稀少。

实时性挑战：动辄数十亿参数的基础模型，如何在资源受限的机器人本体上实现实时推理？

仿真到现实的鸿沟：依赖仿真数据训练的世界模型，如何应对真实世界复杂的物理和不确定性？

为此，论文提出了几个重点研究方向：利用生成模型创造合成数据、发展更高效的模型压缩与部署技术、以及探索“硬件-算法协同设计” 以专门适配机器人计算平台。

04 结论：一场关于机器人“世界观”的范式转移
这篇综述为我们描绘了一幅清晰的图景：机器人学中3D场景表示的发展，正从离散、几何驱动的传统方法，经由连续、神经渲染驱动的中间阶段，迈向统一、语义与推理驱动的基础模型时代。

尽管NeRF和3DGS在逼真重建和实时性上取得了突破，但它们本质上仍是“感官”的延伸。而基础模型带来的，是“认知”的飞跃。它让机器人不仅能精确重建一个房间的几何，还能理解“这是一个客厅，沙发很柔软，咖啡杯放在桌上可能还有余温”这种富含语义、常识和物理直觉的概念。

最终，回答“什么是最佳表示”这个问题，答案可能不再是某个具体的技术点，而是一个动态的、任务自适应的统一表征框架。在这个框架下，机器人能像人类一样，自由地调用最合适的“思维工具”去感知、理解和改造它所处的世界。

这场范式转移的终点，或许就是真正通用具身智能的黎明。

来源：青稞具身智能