
智慧枢纽
一、具身智能(Embodied AI)软件全栈方案分类
具身智能(Embodied AI)软件全栈方案的分类可以从「技术架构、部署模式、能力特性、应用场景」等多个核心维度展开,不同分类方式对应不同的设计目标和技术侧重。以下是最主流的分类逻辑:
1. 按「核心技术架构」分类
这是最基础的分类方式,直接反映系统的底层逻辑和模块协作方式。
「分层闭环式全栈方案」核心是“大脑决策+小脑执行”的分层设计,通过感知-决策-执行的闭环反馈持续优化。 典型代表:优必选Walker X、特斯拉Optimus的软件架构。 「端到端大模型驱动式全栈方案」用统一的多模态大模型直接连接传感器输入与动作输出,省略中间分层拆解。 典型代表:基于GPT-4V、Gemini的机器人直接控制方案、Google RT-X生态。 「模块化混合式全栈方案」将感知、认知、运动控制拆分为独立模块,每个模块用专用技术实现,再通过标准化接口集成。 典型代表:波士顿动力Atlas的控制架构、ROS生态衍生的工业机器人方案。 「脑启发认知式全栈方案」模拟人类大脑的记忆、注意力、推理机制,强调长期自主学习和复杂场景下的持续决策。 典型代表:基于SOAR、ACT-R认知框架的机器人系统。
2. 按「部署模式」分类
根据计算资源的分配方式,决定系统的响应速度、隐私性和算力依赖。
「云边协同全栈方案」高层认知决策(如任务规划、多模态理解)在云端完成,低层运动控制在边缘端(机器人本地)执行。 优势:利用云端大算力处理复杂任务,边缘端保证低延迟执行。 「边缘原生全栈方案」所有感知、决策、控制逻辑都在机器人本地硬件上运行,不依赖云端。 优势:高实时性、高隐私性,适合偏远或无网络场景(如矿山、太空)。 「轻量化端侧全栈方案」针对低算力硬件(如小型服务机器人、无人机)优化,通过模型压缩、量化等技术实现端侧独立运行。 典型代表:大疆无人机的飞控与视觉导航全栈。
3. 按「能力特性」分类
聚焦系统具备的核心功能和差异化能力。
「通用型全栈方案」追求跨场景适配能力,支持多种任务(如导航、抓取、交互),目标是“一个系统解决多类问题”。 典型代表:商汤绝影、宇树H1的通用人形机器人全栈。 「任务专用型全栈方案」针对特定场景深度优化,如工业抓取、仓储分拣、医疗辅助,强调单任务的极致效率和稳定性。 典型代表:波士顿动力Stretch(仓储分拣专用)、手术机器人的运动控制全栈。 「自主进化型全栈方案」核心是“持续学习+闭环反馈”,通过真实环境中的交互数据不断优化模型和动作策略。 典型代表:DeepMind Robotics的强化学习驱动方案、特斯拉Dojo训练的Optimus系统。 「安全合规型全栈方案」针对工业、医疗等强监管场景,内置安全冗余、故障诊断、合规审计等机制。
4. 按「应用场景」分类
不同场景对全栈方案的性能、鲁棒性要求差异显著。
「工业机器人全栈方案」:强调高精度、高稳定性、抗干扰能力,适配产线复杂环境。 「服务机器人全栈方案」:强调人机交互、环境泛化、低噪音运行,适合商场、家庭等场景。 「人形机器人全栈方案」:强调动态平衡、复杂动作规划、类人交互,技术难度最高。 「多机器人协同全栈方案」:强调集群通信、任务分配、全局优化,适合仓储、农业等集群作业场景。 「特种机器人全栈方案」:针对极端环境(水下、太空、核辐射)设计,强调鲁棒性和生存能力。
5. 按「技术栈底座」分类
基于底层开发框架和生态的不同,决定了系统的兼容性和扩展性。
「ROS生态全栈方案」:基于机器人操作系统(ROS/ROS 2)构建,是工业界最成熟的技术底座。 「大模型生态全栈方案」:以LLM、多模态大模型为核心,结合机器人控制模块(如LangChain+ROS)。 「自研框架全栈方案」:头部厂商为满足差异化需求,完全自研底层框架(如波士顿动力、特斯拉)。 「云原生全栈方案」:用容器、K8s等云原生技术管理机器人集群,适合大规模部署的场景。

「具身智能全栈方案分类选型表」,把不同分类下的典型方案、核心优缺点和适用场景做直观对比,方便你快速匹配项目需求。
二、具身智能(Embodied AI)软件方案主流方向
以下为当前最前沿、已被验证可落地的具身智能软件全栈架构,按系统层次从底向上整合摘要。
1. 底层实时计算平台(2025年实际主流组合)
首选:NVIDIA Isaac ROS 2 + JetPack 6.x(Jetson Orin系列已占人形机器人出货量70%以上) 次选:Ubuntu 22.04 + PREEMPT_RT + ROS 2 Jazzy/Humble(Unitree、波士顿动力Atlas最新内部版本实测) 新贵:Apple robotics foundation model stack(基于visionOS spatial computing框架,2025年Q2已内部Dog Test) 极少数顶级玩家:自研微内核RTOS(如Figure、Agility Robotics的Helix系统)

2. 核心软件架构范式(2025年已分化成三大学派)
学派A:Google DeepMind式“大一统世界模型 + 小推理”派(主流赢家)
架构:RT-2 X → Gemini Robotics → AutoRT → Gemini Robotics 2.0(2025年3月发布) 核心:用超大视觉-语言-动作模型(VLA)直接输出关节扭矩或阻抗目标,完全取代传统任务规划和技能层 代表机器人:DeepMind内部Gemma-3、Google日常机器人、RT-2 X实机
学派B:Tesla Optimus式“端到端神经控制 + 经典分层混合”派(落地速度最快)
架构:FSD 12.x神经网络直接输出关节力矩 + 传统高频阻抗/力控环(1-3kHz) 核心:背靠海量真实视频预训练 + 极简仿真(只做动力学校验,不做策略训练) 2025年最新:Optimus Gen2已将整个上半身技能全部端到端,仅保留腿部传统MPC
学派C:OpenAI/Figure/Covariant式“云-边协同 + 基础模型技能库”派(手机端最火方案)
架构:手机/云端大模型(GPT-4o、Grok 3、Claude 3.5 Sonnet、Qwen-VL-Max)做高层意图理解与任务规划 → 边端技能控制器执行(500+原子技能) 代表系统: Figure 02(2025年3月量产版):完全基于GPT-4o + Grok 3双云脑 + 本地400+原子技能 1X Neo Gamma(2025年已量产出货):Claude 3.5 Sonnet实时语音到动作 Agility Arc(2025年仓库方案):Covariant RFM-1 + 700个可组合技能
3. 感知规划最新方案(2025年已淘汰纯几何方法)
主流:全神经感知 + 经典滤波混合
视觉主干:Google Gemini Robotics ViT-8B(400Hz实时版,已在Atlas上跑通)或OpenVLA-7B 3D场景表示:Gaussian Splatting 4D(动态高斯泼溅)实时版(2024年底已商用) 多模态融合:LLaVA-1.6-Motion(中科大+上海智元2024年12月版,已超GPT-4o在机器人场景)
4. 任务规划与技能控制层(2025年真实落地分类)
级别1(已大规模量产):技能库 + LLM编排(当前90%商用方案)
技能颗粒度:300-800个原子技能(Grasp、Place、Fold、Insert、Pour等) 编排方式:LangChain/LlamaIndex + ReAct提示词或专用框架(如Microsoft GR00T的SkillGraph) 代表:Figure 02(750个技能,2025年4月宝马工厂实测成功率96.8%)
级别2(2025年顶级玩家):端到端VLA模型取代规划层
代表:Tesla Optimus Gen3(预计2025年Q4)、Google Gemini Robotics 2.0、Skild AI
级别3(未来6-18个月主流):可扩散动作策略(Diffusion Policy + ACT)
当前最强开策方案:OpenVLA-7B + Diffusion Policy(在手机上可实时推理21-DoF双手)
5. 数字孪生与仿真系统(2025年实际使用情况)
真正用于训练的只有三家:
NVIDIA Isaac Sim 4.2 + Isaac Lab(2024年已成为绝对霸主,Figure、1X、Boston Dynamics、Tesla全部接入) MuJoCo 3.2 + DeepMind dm_control(Google内部专用) DeepMind + Unity联合开发的Gemini Sim(2025年将开放)
其他(如Webots、Gazebo)已基本退出顶级训练流程,仅用于教学。
6. 2025年最被验证有效的完整技术栈(推荐关注这三套)
方案A(最成熟量产):Figure 02技术栈 ROS 2 Jazzy → NVIDIA Isaac ROS → GPT-4o/Claude 3.5实时语音任务规划 → 750原子技能库 → 数字孪生Isaac Sim 4.2
方案B(性价比最高):1X Neo / Unitree H1 Pro方案 Ubuntu 22.04 RT → ROS 2 → Qwen-VL-Max/Gemini 1.5 Pro任务规划 → 400-500技能 → Isaac Sim训练
方案C(最激进):Tesla Optimus Gen3路线(2025下半年) 完全抛弃ROS → 自研神经OS → 端到端FSD神经网络直接驱动 → 仅用Isaac Sim做动力学校验
三、未来12月落地主流方向(已发生)
ROS 2 + Isaac平台成为事实工业标准(类似手机界的Android) 高层任务规划完全被多模态大模型接管(GPT-4o、Claude 3.5、Grok 3、Gemini 1.5 Pro) 技能控制层正在被两个方向快速蚕食: 端到端VLA模型(Tesla路线) Diffusion Policy类策略(学术界+Skild AI路线) 传统机器人学(MPC、规划、控制)的价值正急剧向“高频执行环”和“原子技能设计”收缩
未来12个月内,真正能量产的具身智能机器人,90%会落在上面三种方案之一。


