神经网织者
不久前,小鹏新一代人形机器人的逼真步态,在全网引发了一场“究竟是不是真人扮演”的现象级热议。这一事件,瞬间点燃了公众积蓄已久的好奇心:人形机器人技术究竟发展到了什么阶段?我们离科幻照进现实还有多远?
作为人工智能、高端制造、新材料等前沿技术的集大成者,人形机器人正被视为继计算机、智能手机、新能源汽车后的下一个“颠覆性产品”。然而,在热点频出、信息纷繁的当下,穿透表象、厘清技术与产业脉络、洞察发展本质的需求正变得愈发迫切。
恰逢其时,中国机械工程领域的顶级期刊《机械工程学报》在2025年第61卷第15期发表了一篇重磅综述——《构建具身智能新范式:人形机器人技术现状及发展趋势综述》。论文由北京航空航天大学陶永、魏洪兴教授团队联合国家地方共建具身智能机器人创新中心、浙江大学等多家顶尖机构的专家学者共同撰写,为我们系统性地理解当下具身智能及人形机器人技术路线与产业格局,构建了一个兼具权威性与前瞻性,系统且全面的认知图谱。

更具新意的是,为了让这篇硬核的论文“破圈”,《机械工程学报》还史无前例地创作了一支主题曲
那么,这份被寄予厚望的权威论文究竟揭示了什么?接下来,让我们跟随论文脉络,深入探究。(本文篇幅有限,仅对论文部分核心观点进行梳理,推荐点击文末“阅读原文”查看完整论文)
01. 人形机器人发展历程与现状
当前人形机器人技术正在加速演进,已成为全球科技创新与产业升级的新高地。在“人本智造”理念下,人形机器人作为具身智能的重要代表,具有广阔的发展前景。论文开篇便给出了清晰的定义:“人形机器人是一类具有人类外形、模仿人类功能和智能的仿生通用机器人”。

(a)Wabot-1](b)Wabot-2 (c)Atlas 2013 (d)Asimo (e)UBTECH WalkerX (f)Atlas 2022](g)Unitree H1 (h)小鹏PX5 (i)Atlas 2 (j)追觅
图 人形机器人发展阶段
论文将1969年至今的人形机器人技术演进概括为四个阶段:
1.早期发展阶段(1969-2000年):这一时期的研究主要集中在基础机械结构设计和基本运动能力的实现上。技术栈以刚性驱动传动和简单运动控制为主,机器人只能执行机械性的重复任务或预编程操作,难以自主适应环境。
2.高度集成发展阶段(2000-2015年):随着技术发展,机器人逐渐配备了更丰富的传感器(视觉、力觉等),具备了基础的环境感知能力。控制算法的提升使其能执行更复杂的任务,但离真正的智能化仍有距离。
3.高动态运动与智能化发展阶段(2015-2022年):以波士顿动力Atlas 为代表的机器人能够完成复杂的运动任务,并通过先进的控制算法实现灵活的动作执行。此阶段的标志性突破是深度学习和强化学习的初步应用,使机器人在动态环境中能够更好地适应新任务。
4.快速发展的爆发期(2022年至今):大模型与高性能计算平台深度融合,人形机器人在语言、情感识别、复杂任务执行方面取得突破。软硬件的深度融合,使其逐渐从“硬件系统”演变为由“软件赋能的具身智能体”。
在这样的发展背景下,全球人形机器人产业呈现出怎样的格局?论文对此进行了详尽的对比分析。
国际现状:基础扎实,AI赋能
论文指出,国际人形机器人技术起步早,在肢体机械结构领域基础扎实。当前研发热点集中在美国、日本和欧洲。以Tesla、Figure AI为代表的科技公司正引领产业化浪潮,而OpenAI、NVIDIA等AI巨头的入局,通过算法与硬件的结合,极大地加速了技术迭代。与此同时,麻省理工学院、东京大学、苏黎世联邦理工学院等知名学府持续在基础理论和前沿探索上取得突破,为产业发展提供源头活水。论文中的下图详细列举了Tesla Optimus、Figure 2、1X NEO Beta等国外代表性产品及其特性。

国内现状:需求导向,百花齐放
与国际相比,论文分析认为,国内人形机器人发展虽然起步较晚,但创新型企业众多,应用需求导向明显,更加注重产品与市场应用的结合。我国形成了企业与高校并行的“双轨制”发展模式,并在国家及地方政策(如下图所列)的精准支持下,成立了北京、上海等地的国家级和省市级创新中心,加速了技术创新和产业化进程。

论文肯定了国内企业在腿部动作稳定性等技术领域已逐步实现与国际领先水平的“并跑”,并指出国内在运动控制算法、具身大模型等关键技术上开源程度较高,促进了产学研合作。与此同时,以北京航空航天大学、浙江大学、清华大学等为代表的高校院所,则在运动控制、机器人学、人工智能等基础研究领域持续深耕,为产业输送了大量核心技术与人才。下图详细展示了优必选Walker S1、智元远征A2、宇树G1等一系列国产人形机器人的亮眼参数和特性,凸显了国内产业“百花齐放”的繁荣景象。

论文总结道,尽管国内在某些关键领域(如高精度传感器)仍与国际顶尖水平存在差距,但凭借政策支持、市场导向和灵活的创新机制,我们正逐步缩小差距,并有望在多个领域实现超越。
02.人形机器人关键核心技术
如果说第一部分是历史和格局,那么第二部分就是这篇综述的核心与精华。论文将人形机器人的复杂技术体系进行了深度剖析。

图 人形机器人核心技术栈
接下来,我们将逐一深入论文所剖析的六大关键技术模块。
2.1 人形机器人本体与核心零部件
人形机器人的本体设计面临着高强度、紧凑、灵活性和轻量化的多重挑战。论文指出,通过采用高强度轻量化材料(如铝合金和碳纤维复合材料)与仿生学设计,是实现重量与耐久性平衡的关键。例如,Tesla Optimus通过碳纤维复合材料将总重控制在57kg以内。
而高性能的本体,离不开高性能的核心零部件。下图展示了人形机器人的部分核心零部件。

(a) 哈默纳科SHG/SHF-2UH系列(b) 绿的LCSG-II减速器(c)科尔摩根的TBM2G无框电机(d)中国步科FMC无框电机(e)Intel的11代工业PC (f) 英伟达的GeForce RTX™ 4090 (g) SCHUNK的SVH机械手[59](h) 因时RH56BFX机械手
图 人形机器人部分核心零部件
论文对这些关键部件的发展趋势和技术挑战进行了深入探讨:
谐波减速器:作为核心传动部件,其高传动比和高精度特性至关重要。论文指出,当前研究集中在提高材料耐久性及优化设计,以提高其在长期运行中的效率和精度。
伺服电机(无框力矩电机):提供驱动力。论文强调,热管理是其主要技术挑战,散热不良会导致性能下降。同时,制造精度对电机稳定运行至关重要。
高性能控制器:机器人的“大脑”,通常采用CPU+GPU+FPGA的架构。论文提到,其技术特点体现在强大的计算能力和低功耗设计。
仿人灵巧手: 实现精细操作的关键。论文分析,其挑战主要集中在多模态信息的高效融合以及操作稳定性的提升。

2.2 高精度环境感知与场景理解
机器人要完成通用任务,必须先看懂、听懂、感知到这个世界。

图 人形机器人用于环境感知与场景理解的多种传感器
如上图所示,人形机器人配备了丰富的传感器。论文将它们分为两类并分析了其核心挑战:
传统传感器:包括视觉系统(相机、激光雷达等)、运动反馈系统(力传感器、IMU等)和语音交互系统等。它们是机器人定位、导航和获取自身状态的基础。
新型传感器:论文特别提到了视触觉传感器、电子皮肤、嗅觉传感器等新型传感器的应用,它们极大地丰富了机器人的感知维度。
核心挑战——多模态信息融合与运用:当前的技术瓶颈在于如何有效融合与综合运用这些多模态的感知信息。论文给出了具体数据:“当前多模态信息融合算法的实时性尚不足,决策延迟一般在200~300 ms之间,而复杂场景中低于100 ms的延迟是达到人类操作水平的关键。”
2.3 平稳步态控制与灵巧操作
这是决定机器人“像不像人”的关键,也是小鹏机器人引发热议的焦点。下图中归纳了双足步态控制、上肢灵巧操作和全身协调运动三大核心模块的技术细节与交互逻辑。

步态控制:论文详细阐述了双足步态控制的技术难点。由于双足机器人与地面接触时间短、支撑面小,需要具备精密的动态平衡与能量管理能力。论文介绍了多种数学模型,包括降阶模型、全阶连续动力学模型、离散足部撞击动力学模型及混合动力系统模型,这些模型共同为非线性优化步态控制奠定了理论基础。
灵巧操作:论文系统分析了上肢操作技术。现有人形机器人通常采用高自由度机械臂构型与仿人五指灵巧手。高自由度机械臂具有较大的运动范围和灵活性,能够胜任多样化的操作任务。
全身协调:论文明确指出,步态控制的研究重点正从纯粹的稳定性逐步转向全身协调运动及其与上肢操作的交互优化。全身控制的目标是实现双足步态、上肢灵巧操作和全身动态平衡的深度协同。通过多模态感知技术,人形机器人能够实时整合步态与操作信息,在维持双足稳定的同时进行抓取或搬运任务。
2.4 具身智能与大模型
这是当前最激动人心的领域。论文对“具身智能”给出了明确的定义:机器人等智能体通过其物理形态与外部环境之间的紧密互动和反馈,来感知周围世界、做出决策并执行相应动作的能力。

图 具身智能系统基本概念示意图
上图直观地展示了具身智能技术的发展不仅提升了机器人的环境感知和人机交互能力,还增强了其自主规划和智能化的决策能力,使机器人在多种需要高度智能化的场景中展现出强大的潜力。论文进一步阐述,人形机器人正是具身智能的理想载体。

图 具身智能技术体系
上图展示了具身智能的技术体系,论文分析了大模型的两种路径:
通用大模型:覆盖多场景、多任务的大型预训练模型,具有广泛的适应性和可迁移性,能够为人形机器人提供基础性的智能能力,如Google的PaLM-E模型。
垂直大模型:作为人形机器人具身技能的专才模型,通过对特定领域的定制化训练和深度优化,以应对不同应用场景中的复杂需求,进一步提升人形机器人在专业技能任务执行中的效率和精准度,如字节跳动的GR-2模型。
论文还提到了全球在该领域的协作努力,如DeepMind发起的RT-X项目和NVIDIA发布的ProjectGR00T基础模型,以及我国的“慧思开物”具身智能平台,这些都推动了具身智能技术的落地应用。
2.5 人机协同与共融交互
人形机器人由于自身具备与人高度相似的形态和行动方式,因此人机协同与共融交互技术成为了人形机器人必须解决的核心问题之一。在人机协同中,人形机器人通过为人类提供支持,可显著提升工作效率,尤其是在复杂的生产和服务场景中(如下图)。

(a)人机协作中的交互机理(b)傅利叶GR2机器人具备情绪响应功能(c) GPT大模型加持的人机协同(d)具身智能机器人的应用
图 人形机器人在共融交互空间中开展人机协同操作
论文分析了实现这一场景的关键技术:
柔顺控制:人形机器人依托其无框动力系统和先进的控制算法,结合大模型与具身智能技术,能够实现类人的柔顺控制。这些技术创新使机器人具备了在复杂动态环境中进行多自由度运动控制的能力,特别是在高维协同操作中表现突出。
动作与意图交互:机器人不仅要实时解析人类的动作意图,还需通过智能算法进行精准的运动规划和调整。研究者正在深入探索动作与意图交互操作,通过改进感知系统和决策算法并结合数字孪生系统,使机器人与人类之间能够更好地感知与理解对方的动作和意图。
情感共融:情感理解正成为人形机器人与人类互动的关键要素,也是“人本智造”真正实现以人为本的核心需求。人形机器人通过结合多模态信息,不仅能感知用户的情绪状态,还能够根据情感反馈做出相应的反应。
2.6 人形机器人的操作系统与工具链
操作系统:人形机器人软硬件类型与通信架构复杂,操作系统需要具有内外部传感设备数据互联、多设备多终端连接与分布式协同、模块化解耦、分布式软总线、安全可信等特征。人形机器人相应的操作系统生态繁荣度将成为未来发展的重要核心竞争力之一。
仿真训练平台:论文详细介绍了仿真平台的演进。较早的机器人仿真训练平台包括Gazebo、PyBullet、MuJoCo等,但其核心物理保真度、渲染真实度均处于较低水平。

图 大规模仿真并行训练平台
论文分析,以NVIDIA Isaac Sim为代表的平台,能够支持开发者在虚拟环境中大规模生成训练数据、测试算法,极大地提高了研发效率。论文特别指出了“虚实融合仿真平台”是新的发展趋势。
训练数据集与应用软件: 论文还提及了高质量数据集构建的重要性,以及与机器人设计、交互相关的各类应用软件,它们共同构成了人形机器人不可或缺的工具链。
03. 人形机器人的典型应用
基于人形机器人的结构特点,人形机器人有望率先在特种领域实现对人类的替代,在工业领域实现示范应用,并将于成熟度较高后融入家庭与医疗等服务行业,在民生领域实现大规模应用。
3.1 人形机器人在特殊服役环境领域的典型应用
人形机器人在国防军工、应急救援、危险场景巡检等特殊服役环境中的典型应用,展现了其在高风险、恶劣或复杂环境中的重要价值。相较于传统轮式或履带式机器人,人形机器人凭借类人的结构设计、高自由度的运动能力以及灵活的末端操作功能,能够执行其他机器人难以完成的任务,在高度动态化和非结构化场景中具备明显优势。
3.2 人形机器人在智能制造领域的典型应用
人形机器人在智能制造领域的应用展现出独特的优势,尤其是在高度自动化和复杂操作任务中发挥了关键作用。在汽车制造领域,人形机器人凭借其出色的灵活移动性,以及对产线灵活变化的卓越适应能力,在这一领域的应用尤为引人注目。例如:优必选人形机器人可完成基础但对灵活操作要求极高的任务,已与与东风柳汽、吉利汽车等企业合作;宇树科技的人形机器人也在2024年进入了工厂,在蔚来汽车工厂进行自动拣料配送工作。
3.3 人形机器人在家庭及社会服务领域的应用

图 用于家庭服务的人形机器人
论文分析了人形机器人在家庭服务(家务、情感陪伴)、社会服务(零售、酒店的引导送餐)、医疗健康(康复训练)和教育培训(实验演示)等领域的巨大潜力。
论文指出,当前人形机器人在应用领域发布的场景实践大多为示范性验证,暂未实现大规模的应用推广。当前应用仍面临技术上的挑战,如续航能力、复杂环境下的操作精度、高成本等问题需要进一步攻克。随着技术的不断进步和成本的降低,人形机器人有望在这些领域中发挥更为广泛和深入的作用,推动社会服务的智能化进程。
04. 挑战与难点
在描绘了光明前景的同时,论文也剖析了当前人形机器人发展面临的五大核心挑战,这为产业界和科研界指明了需要集中攻克的方向。
1.整机软硬件需加强协同化创新设计:跨学科、高耦合是人形机器人的系统本质。需要在设计早期即统筹机-驱-控-算的指标分配与实时性约束,处理好模块化/标准化与接口性能之间的权衡,确保系统级稳定性与迭代可维护性。
2.复杂任务尚需高精度环境感知与多模态融合:现有传感仍以单物理量为主,难以全面覆盖复杂环境变量。多模态融合的实时性与鲁棒性是突出瓶颈。
3.强思维链高泛化性具身智能仍处在起步阶段:大模型对底层控制的直接介入仍有限;动态环境建模、未知场景探索与决策泛化能力尚需增强。灵巧手在非标任务中的稳定性与任务级策略学习仍有待提升。高质量多模态感知与操作数据集的建设尤为关键。
4.动力系统的驱动高效性与续航持久性未达需求: 电池能量密度与充电效率限制了整机续航与作业时长。能量回收、能耗动态调节、智能能源管理与步态能效优化是重要方向;材料与电化学体系演进亦将影响续航边界。
5.人形机器人的标准规范与安全保障体系亟需加强:需完备技术/性能/安全测试标准(含物理安全、数据安全、操作安全、电磁兼容等),在保障安全与合规的前提下为技术创新预留弹性空间,支持不同应用场景的评估与准入。
05. 未来发展趋势
面对挑战,未来将向何方?论文最后高瞻远瞩地提出了五大发展趋势,为我们揭示了人形机器人技术演进的宏伟蓝图。
1.具身智能赋能通用人工智能与人形机器人的深度融合:未来将从以大语言模型为主的交互,向视觉-语言-动作模型为主的多模态交互方式过渡,让人形机器人具备高度泛化能力和思维链能力,逐步迭代达到具身智能的高级形态。
2.端到端多模态大模型提升人形机器人的自主操作技能:未来的端到端大模型将以通用大模型和垂直大模型两种发展路线并行迭代。未来的人形机器人将通过大模型实现全流程的智能决策,从感知到运动控制的所有环节实现高度智能化。
3.大规模仿真训练平台助力人形机器人高效迭代: 虚实融合仿真平台也正在成为新趋势,通过结合实际场地数据,不断修正仿真模型,提升仿真精度并缩短研发周期。
4.算力算法升级推动人形机器人技术快速融合创新发展: 更强的算力平台将使更复杂的AI模型得以在机器人上部署。同时,新一代通信技术、云-边计算、新能源、新材料、脑机接口、数字孪生等技术也将与人形机器人深度融合,不断拓宽其性能边界。
5.人机环共融与安全伦理逐步规范,构建人机智融新范式:通过安全与伦理体系的不断完善,人形机器人将在未来更加顺利地融入人类社会,实现与人类的安全共处和协同工作。
06. 结语
目前恰逢我国工业转型期,诸多高端应用场景不断涌现,如能以场景和任务为核心,以研用结合为动力,以跨领域技术融合为手段,开展人形机器人的高效应用迭代与前瞻性开发,将能够有效提升我国人形机器人相关领域的技术水平和产业化能力,并成为新质生产力的典型代表,为各行业进步与经济高质量发展做出实质性贡献。
在人形机器人和具身智能概念被碎片化解读的当下,这篇综述有望为科研人员指明前沿方向,为开发者拆解技术路径,为企业决策提供依据。
值得一提的是,论文第一作者、北京航空航天大学陶永副教授,长期从事机器人智能化技术研究,致力于产学研结合推动制造业升级,此前已有多部相关著作出版,为我国机器人领域的人才培养和技术普及做出了重要贡献。对该领域有兴趣的读者,可以进一步阅读其著作,深入学习。

----------------END-------------------
来源:机器人大讲堂