公差零界点
机器人马拉松、格斗赛、运动会……今年以来,各类关于具身智能的“机器人竞技”轮番登场,热闹非凡。不同模样、不同尺寸、“铁骨铮铮”的机器人选手们同场竞技,有的看似刚学会走路,有的已经能上场打拳了。
而日常动手榨汁、叠衣服、选购商品,这些原本属于人类的日常动作,如今在机器人界也变得越来越常见。这些看似是一场场娱乐化的比赛,背后其实也是一轮轮对具身智能技术的实战测试,也让这个原本偏专业的研究方向,意外地闯进了大众视野。
在这股热潮之下,6 月 6 日北京智源大会上,一场重磅的具身智能圆桌对话正式上演:
宇树科技 CEO 王兴兴带着刚打完“格斗赛”的明星机器人 G1 登场;
北京人形机器人创新中心总经理熊友军携“马拉松冠军”升级版天工 2.0 现身;
北京大学助理教授、智源具身智能研究中心主任、银河通用创始人兼 CTO 王鹤,现场演示了具身智能模型 GALBOT 自主选购商品与人类互动的潜力;
穹彻智能联合创始人、上海交通大学教授、上海创智学院副院长卢策吾带来了穹彻具身智能大脑最新动态,还展示了其刮冰淇淋的本领;
Physical Intelligence 联合创始人兼 CEO Karol Hausman 展示了“分层交互式机器人”(Hi Robot)的前沿成果;
整场讨论由智源研究院院长王仲远主持,一行人聊模型、聊硬件形态、聊机器人核心技术、聊能力边界,观点碰撞,精彩不断。
以下为圆桌对话内容:
01
各家机器人登台亮相,大秀“肌肉”!
王仲远(智源研究院院长):兴兴,我对宇树机器人印象最深的一点,就是它不需要借助移动平台等辅助设备,就能灵活地进行现场展示,真的非常震撼。过去这一年,宇树科技也有了很多新的变化和进展,比如今年的春晚,大家应该都看到了宇树的 16 台 H1 机器人带来的《秧Bot》表演,场面非常震撼。而就在前几天,《CMG 世界机器人大赛系列赛》机甲格斗擂台赛在杭州举办,“AI 策算师”宇树 G1 机器人拿下了冠军。今天你们也把这台冠军机甲带到了现场,请给大家介绍一下?
王兴兴(宇树科技 CEO):G1 是我们去年推出的最新型号,它前段时间也参加了格斗比赛。

今天也带到现场,给大家展示一些动作。

其实像这样的动作,不管是在之前春晚的集群表演,还是在这类格斗比赛中,我们都是希望能向大家真实呈现当前全球人形机器人技术的发展水平,也希望通过这些展示,带动整个机器人行业的进步。
当然,现在大家可能会觉得,这样的机器人还不能马上走进家庭或工厂真正“干活”,这也是目前全球在推进人形机器人落地过程中普遍面临的难题。我们希望未来机器人能真正进入实际应用场景,但在那之前,已经取得的技术成果也值得被看到、被验证,以及进行商业化的尝试。
像人形机器人格斗这样的项目,我们认为未来在今年、明年可能会逐渐成为一个全球都比较受欢迎的体育类赛事。如果大家感兴趣,也欢迎到我们公司亲自来体验一下。我相信这会是一件非常激动人心的事情。
王仲远:除了这台格斗赛的冠军机器人,现场还有一位“马拉松冠军”——来自北京人形机器人创新中心的“天工 Ultra”。它在两个月前北京首届人形机器人半程马拉松中成功夺冠。听说今天还带来了它的升级版“天工 2.0”。请友军分享一下当时天工夺冠的技术亮点,也介绍一下 2.0 版本相比上一代有哪些重要升级?
熊友军(北京人形机器人创新中心总经理):天工 2.0 是一个开源开放的平台,相比 1.0 在多个方面进行了升级。天工 1.0 曾在人形机器人半程马拉松中亮相,并以 2 小时 40 分顺利完赛,被称为“最能跑”的机器人。
而天工 2.0 的目标不止于“能跑”,我们希望它更实用、更易用,能胜任更多任务。因此,我们这次重点升级了上肢系统:增加更多的自由度、配备灵巧手,并提升了负重能力。
今天我们也带来了实物,会在现场为大家演示它的一些新能力:

“天工”在参加马拉松之后,其实也进行了一次系统性的整体升级。其背后的北京人形机器人创新中心是在 2023 年 11 月 2 日正式成立的,是全国首个省级层面的专注于人形机器人的创新平台。到了 2024 年 10 月,我们中心正式升级为国家与地方共建的“具身智能人形机器人创新中心”。这次升级并不仅仅是单点的技术提升,而是一个体系化能力的全面建设,主要体现在以下四个方面的平台能力拓展:
第一方面是硬件平台的持续升级。之前大家看到的天工 1.0,主要是在马拉松比赛中展示了其在复杂地形下比如跑道、草地、沙地、丘陵和碎石上的运动能力,验证了其“最能跑”的实力。现在,天工 2.0 版本重点提升了它在实际应用环境中的适应性,比如能在工厂、高风险作业区等对人类有潜在伤害的环境中替人完成任务,这是一个更偏向工程落地的方向。
第二方面是“软实力”——智能系统的升级。今年 3 月,我们发布了首个通用具身智能平台“慧思开物”。这个平台具备“一脑多能、一脑多机”的能力,核心是具身智能系统中的“大脑”和“小脑”。其中大脑主要负责人机交互、环境感知、意图识别、任务规划等高级智能能力;而小脑则侧重运动控制、执行指令,并将执行结果回传,形成智能闭环。
第三方面是训练平台的搭建。为了持续迭代和优化具身智能体,我们自建了国内较为先进的机器人数据采集与训练中心,并构建了 20 多个虚实结合的典型场景,用于数据采集和训练模拟,同时也搭建了一整套包括数据处理、服务与人才培养在内的支撑体系,全面服务于“慧思开物”平台的智能体训练与演进。
第四方面则是平台化能力的标准建设。为了保障机器人机型的稳定性和可靠性,我们正牵头建设北京地区的“中试平台”,提供包括产品验证、标准测试等在内的完整支撑,助力技术成果快速落地应用。
基本上,这就是我们目前在人形机器人领域所做的系统性升级和整体布局。
王仲远:王鹤在 2021 年从斯坦福回到北大任教,2022 年加入智源研究院,担任具身智能研究中心负责人。2023 年,他创办了北京银河通用机器人有限公司,专注于通用机器人的研发。那现在银河通用在通用机器人模型方面有没有一些新的进展?也请王老师和大家分享一下。
王鹤(北京大学助理教授、智源具身智能研究中心主任、银河通用创始人兼 CTO):今年是银河通用机器人连续第二年在智源大会上亮相。
在去年的大会上,我们展示了机器人从货架上抓取盒装物品的能力。今年,我们进一步基于 VLA(Visual-Language-Action)技术,构建了更具通用性、更加贴近实际商超货架场景的解决方案。

在本次展示中,我们使用了轮式底盘人形机器人,依托自研的端到端大模型 GALBOT,在极为密集、非结构化的货架环境中实现自主抓取。这类场景下,传统依赖轨迹规划的方法往往难以避免碰撞或精准操作,而我们的模型可以直接感知并适应琳琅满目的复杂商品种类,包括瓶装、袋装、薯片、果冻等不同形态的商品。
这个模型整个系统为闭环控制,在抓取过程中具备抗扰性——即使有人干预或“抢夺”,机器人仍会根据反馈进行智能调整。
我们的一个重要技术特色在于,训练过程主要依赖大规模合成数据,这使得整体成本显著降低,同时具备良好的扩展性。
王仲远:去年 3 月在上海交大首次见到卢老师,他当时展示了机器人叠衣服、刮胡子等功能,基于力反馈机制的具身智能系统给人留下了深刻印象。不知道最近在这方面有没有新的进展?
卢策吾(穹彻智能联合创始人、上海交通大学教授、上海创智学院副院长):从产品角度来说,我们在去年发布了“穹彻大脑”V1 版本,而 V2 版本预计将在今年 7 月正式发布。V2 在物理世界的理解与交互能力方面有了显著增强。
之所以强调力反馈,是因为我们在执行很多动作时,其实依赖的是下意识的反应。这类具身智能系统真正的价值,往往体现在那些对物理交互要求复杂、需要动态接触的高经济价值场景中。例如我们曾展示过的“刮胡子”任务,就是一个典型案例。这个任务看似简单,但背后对控制策略的鲁棒性要求非常高。因为力道过大可能会造成伤害,而力道过小又无法刮干净,这就需要模型具备近似人类的、下意识层面的操作能力。
当然,刮胡子更多是一个技术展示。在实际应用中,我们已经将这套具身系统落地于多个商业场景。例如在食品加工行业,我们已经实现了批量部署,系统能够完成诸如“刮冰淇淋”这类复杂操作——这种任务与传统的一次性抓取不同,需要每毫秒精确地控制动作,特别是在面对质地较硬的冰淇淋时,只有具备精细力控能力的系统才能完成自然、顺畅的刮取,模拟出类似人手的操作体验。

实际上,大家在市面上购买的一些食品,可能就是由我们这套系统在背后加工处理的。这类任务通常涉及高密度、持续性的接触,对机器人理解和应对物理世界的能力提出了更高要求。
向生活场景拓展也是我们系统的重要方向。例如未来它可以用于照护任务,如为人擦脸、辅助清洁等——这些与人直接交互的场景同样需要具身智能系统具备细腻、稳健的操作能力。我们所开发的大模型,具备“力”与“位”的双重反馈机制,这在全球范围内也是唯一实现的。这使得模型能够更真实地理解物理世界,并执行高质量、高安全性的操作。
王仲远:Physical Intelligence 在国内受到了广泛关注和热烈反响,每当有新模型发布或相关视频上线,如 Hi Robot、π0.5,都会引发大量转发和讨论。Physical Intelligence 在具身机器人及其大模型方面,最近是否有一些新的进展可以分享?
Karol Hausman(Physical Intelligence 联合创始人兼 CEO):非常感谢大家对 Physical Intelligence 的关注。我们始终希望能够将我们的模型开放给全球的开发者,为各类机器人赋能,助力它们在现实世界中完成有价值的任务。
对于 π0.5 版本来说,这是一个令我们非常自豪的时刻。过去很长一段时间,我们都认为,让机器人在完全陌生的环境中完成有意义的任务几乎是不可能的。而这次我们选择“家庭”作为测试场景,正是因为家庭环境的复杂性和多样性代表了通用化能力面临的最大挑战——每一个家庭的布局、物品和使用习惯都不尽相同。如果机器人能在从未见过的家庭中完成任务,那么它的泛化能力就达到了我们所设定的最高标准。
相较之下,如果在工厂环境中测试,虽然有挑战,但各个工厂之间往往具备一定的相似性,测试难度不会像家庭环境那么高。
我们在一开始的核心问题是:要实现这种泛化能力,机器人到底需要经历多大的数据多样性?结果出人意料地积极——正如我在演讲中展示的那样,只需要在 100 个不同的家庭中进行训练,机器人就能够在第 101 个陌生家庭中完成任务。

当然,它目前仍不能每次都成功,失败率仍然存在。但这表明:也许我们并不需要极其庞大、复杂的数据集,就可以让机器人真正具备泛化能力。虽然这只是一个起点,但它已经显示出非常令人鼓舞的前景——这是我们之前未曾预料到的。
02
机器人参加各种比赛,利大于弊还是弊大于利?
王仲远:大家都知道,今年具身智能在公众层面获得了更广泛的关注,某种程度上也得益于近期一系列人形机器人相关的赛事,比如马拉松比赛、格斗赛等。而在今年 8 月,北京还将举办一场世界人形机器人运动会。
请各位谈一谈对这类赛事的看法:你认为这些比赛更像是技术验证的平台,还是偏向“秀肌肉”的展示?此外,这些活动是否也有可能在无形中抬高公众对人形机器人能力的预期?这对行业而言是利大于弊,还是需要更谨慎对待?
王兴兴:从今年 1 月的春晚到近期的格斗比赛等活动,我们可以看到,具身智能和人形机器人越来越频繁地出现在公众视野中。我认为,这些活动的最大价值在于为大众提供了一个非常直观的展示平台,让人们更早、更具体地了解当前机器人技术的发展水平。
当然,由于赛事类型多样,有的企业参与,有的没有参与,这种情况也很正常。毕竟,每家企业在技术路径、商业策略等方面都有自己的特点和考量。
就我们公司而言,尽管参与了一些舞蹈表演或格斗类的展示项目,但我们的终极目标始终是希望打造真正能“干活”的机器人——无论是在家庭还是在工业场景中,能够承担实际任务。但正如大家所知,在目前的技术发展阶段,让一个人形机器人立即进入家庭承担复杂家务,仍然具有相当大的挑战。
因此,我们的思路是:通过具身智能与 AI 技术的结合,推动机器人掌握更加复杂、多样的全身动作能力。跳舞和格斗,并不是以表演为目的,而是作为“全身动作能力”的一种体现。我们的愿景是让机器人不仅能够完成舞蹈或极限对抗动作,也能胜任如端茶倒水、做饭清洁等生活任务。这些能力在底层上是相通的,都是复杂身体协调与感知理解的体现。
我始终相信,真正能进入家庭、服务人类的机器人,一定也是能够跳舞、能够进行高复杂度动作的机器人。而在实现这一终极目标之前,参与赛事和展示,不仅能帮助我们不断验证和提升技术,也能通过市场化的方式探索商业价值。
例如,今年上半年,人形机器人租赁市场的火热,已经带来了一定的产业效应。这些赛事和展示并非“噱头”,而是我们迈向真正落地应用过程中的一部分。因此,我们希望通过这样的机会,向外界传递清晰的信息:无论是比赛还是表演,最终的指向都是一个目标——通过 AI 驱动的全身动作控制,实现机器人真正服务于人的能力解放。
熊友军:我认为举办这类机器人赛事具有非常重要的意义。以即将在北京鸟巢举办的“机器人运动会”为例,从多个维度来看都值得期待。
首先,这是一场面向公众的科技知识普及盛会。通过比赛的形式,广大观众可以直观了解当前机器人技术的发展现状及其应用能力。尤其值得一提的是,本次运动会将包括短跑、长跑、障碍赛、接力赛、足球、舞蹈等多个项目,这些项目贴近大众生活、形式生动活泼,能够在潜移默化中提升社会对机器人技术的认知和理解,起到良好的科普作用。
其次,这样的赛事也是机器人技术发展的“实战训练场”。很多比赛项目所设置的场景都来源于真实世界的实际需求,而不仅是实验室中人为构建的环境。据我所知,本次比赛涵盖了来自工业、医疗、服务等多个行业的实际应用场景——例如工厂中的物流搬运、医院中的药品分拣和送药,以及酒店的服务机器人应用等。这种与真实应用环境高度贴合的设置,对于推动机器人技术走出实验室、加快实用化转化具有重要意义。
最后,我认为这样的赛事还可以为机器人企业搭建一个与潜在客户之间的桥梁。一方面,客户能够借此了解机器人的实际能力和应用前景;另一方面,企业也能通过赛事展示自身技术优势,寻求落地合作机会。因此,这不仅有助于提升行业影响力,也有可能加速机器人技术的产业化进程,推动在特定场景中的试点应用。
Karol Hausman:我认为海外的机器人比赛还远没有中国那么受欢迎。这是一个非常有趣的发展趋势。我了解一些海外正在举办的比赛,比如机器人杯(Robot Cup)等,也有一些学术性的竞赛,但规模还远未达到中国的水平。我很期待看到这些赛事在未来的发展变化。
王仲远:机器人比赛经常被用来展示机器人的极限能力,但我们更期待机器人能够切实解决工厂和家庭中的实际问题。王老师、卢老师,你们如何看待机器人比赛与实际落地之间的关系?如何助力机器人更好地进入现实场景?
王鹤:我认为,在当前阶段谈论具身智能,最重要的目标之一就是推动其真正走向产业化。尽管我们已经看到许多炫目的技术展示,但也应当反思:这些技能在真实、复杂、多变的环境中能否稳定工作?比如,当面临全新的物品架、完全陌生的场景,或是用户对成功率要求接近 100% 的商业应用时,它们是否足够可靠?
这是我们银河通用与智源联合团队在推动这项技术时一直在思考的问题。我们希望首先打通一些真正“关键”的技能链条。在这方面,我们重点聚焦的是 mobile-pick-and-place(移动-抓取-放置)能力。
我们关注的落地场景是通用型货架,包括超市、工厂的料库、甚至外卖前置仓。如果我们的类人机器人能够在这些场所实现 24 小时服务,那才意味着具身智能真正开始走向产业化,并在现实中创造生产力。这也是我一直所强调的:推动“人形机器人成为生产力”的时代早日到来。
一个令人振奋的消息是,目前我们银河通用的机器人已经在北京运营了 7 家无人药店,全天候运转,由我们的类人机器人完成与外卖骑手的对接。这类无人药店为很多夜间急需用药的市民提供了便利,也减少了对夜班人力的依赖,解决了人员招聘困难的问题。
到今年年底,我们计划在北京、上海、深圳三地共计开设 100 家类似的无人药店。而我们今天所展示的,就是这个技术路径的下一步。未来,大家在超市下单、车间配料时,都可能看到类人机器人在背后承担关键任务。
我们也希望未来的各类机器人赛事,能在操作层面与这些实际应用形成更紧密的对接。通过比赛引导那些真正有价值、具备落地潜力的技能发展,带动整个生态系统持续向前推进。
卢策吾:我非常同意王老师的观点。机器人赛事本身非常有意义,不仅可以展示机器人的性能,也为行业提供了一个良好的起点。但我们更希望在这之后,机器人能够真正“干活”,在现实场景中产生实际价值。我们也期待未来能有更多以“生产力”为核心的竞赛,聚焦机器人的工作能力和落地能力。
在这方面,我们也在逐步推进相关技术的应用。例如,穹彻正在将具备高频接触的力位反馈建模能力的大模型,逐步应用于食品加工等典型的物理世界场景中。我们希望借助这些实际应用,不断提升机器人的关键技能。
如果未来的比赛能够更多围绕这些真实技能展开,那将更有助于推动整个产业的成熟。我们也相信,“劳动最光荣”这句话放在机器人身上同样适用——机器人真正为人类分担劳动,才是我们最终追求的目标。
03
人形机器人是否为具身智能的最佳路径?
王仲远:在今年 5 月底清华大学的一场学术会议上,中国科学院院士、清华大学计算机系教授张钹提出了一个颇具争议的观点:“人形机器人不是具身智能和 AGI 技术的最佳路径,而走向通用机器人硬件要多样性、软件要通用性。”对于这一观点,你们怎么看?你们是否认同这类“非人形优先”的判断,或者你们在实践中有不同的理解和经验?
王兴兴:其实这几年我在不少公开场合也表达过类似观点:我本人并不坚持一定要走“人形机器人”这条路径。对我们公司来说,从机器狗发展到人形机器人,本身是一个相对自然的技术演进过程。从工程实用性的角度来看,特别是在机器人腿部系统方面,轮式或履带式底盘仍然具有很强的现实适用性。
但当下行业普遍选择人形构型,尤其是在上半身维持类人结构,主要是因为当前大多数 AI 系统的训练数据都是基于人类的行为采集。这种情况下,如果机器人上半身的动作与人类足够相似,训练数据的获取和模型的适配都会更加便利,从而提升整体训练效率和效果。
此外,人形的全身构型也有它的应用场景,比如我们开发的机器人参与舞蹈、格斗等赛事,如果不采用类人的身体结构,这些复杂的全身动作基本上是无法实现的。
当然,从更长远来看,我是非常认同未来机器形态会高度多样化的,特别是在通用人工智能(AGI)真正实现之后。那时候,机器人的形态很可能会比现在丰富百倍,针对不同场景,如工业生产、医疗服务、家用协作,都会涌现出大量“非人形”的设计。
但回到现实,考虑到当前 AI 仍主要依赖人类数据驱动,类人形态依然在训练效率、模型泛化以及实际落地方面具备一定的先发优势。
熊友军:当前具身智能的发展,其载体或实现形式确实是多样的,并不必然局限于人形结构。人形只是其中一种较为典型的选择。但我个人比较认同一个观点:人形机器人是具身智能研究与发展的一个重要方向,甚至可以说是最具潜力的载体之一。这一判断主要基于未来潜在市场规模的考量。
首先,从应用场景来看,未来机器人最大的市场并不在工业领域,而是在商用服务和家庭场景。相比之下,工厂中的应用只能算是一个“开胃小菜”。而在人机交互更为频繁、环境更为复杂的商业和家庭环境中,人形构型天然具备更大的适配潜力,市场空间也更为广阔。
其次,从人机交互的角度来看,如果机器人未来要真正走入家庭,成为我们的伙伴、朋友,甚至在某些场景下被视作亲密关系的一部分,那么在外形和行为模式上尽可能贴近人类,将显著提升用户的接受度与亲和力。人形结构在这一点上具备天然优势。
第三,人类的生活和工作环境本身就是为人类设计和优化的。如果机器人采用人形设计,它将更容易适配现有的环境和工具系统,无需对物理空间进行大规模改造。这不仅降低了部署成本,也提升了应用效率。
当然,我也理解当前行业中关于人形机器人在成本和技术成熟度方面的担忧。但如果放在一个更长远的历史视角来看,我仍然认为人形是具身智能最具代表性、也最具潜力的承载形态之一。
04
VLA 的最新进展
王仲远:听起来大家对于机器人构型在短期与长期的发展路径上,已有一定的共识。当然,真正让机器人发挥实际价值,关键还是在于其所搭载的模型能力。
今天上午的开幕式的主旨演讲和各位嘉宾的讨论都谈到了 VLA(视觉-语言-动作模型)模型。王鹤老师也绍了 VLA 模型,在无人驾驶领域,VLA 已经成为了很主流的解决方案。但毕竟无人驾驶的操作空间是相对有限,机器人面临的环境和实际的行动数量非常多,不知道大家对于VLA的泛化性怎么看?
王鹤:自动驾驶其实已经验证了一点:端到端的方案具备更强的可扩展性。它可以依靠数据驱动模型,而不再依赖繁复的规则系统。传统路径是先检测车辆的三维包围盒(3D bounding box),然后基于这些中间表示进行路径规划,最终生成控制指令。但这条“模块化”的路线,自动驾驶行业探索了很多年,实际大规模落地的却是端到端方法驱动的系统。
从这个角度来看,VLA(Vision-Language-Action)模型的意义就非常突出。它以视觉作为主要的观测输入,通过语言指令灵活接收任务需求,最终端到端输出动作决策,全程无需依赖中间表示。这种方式不仅规避了模块化系统中可能出现的级联误差,也省去了依赖大量规则兜底的问题,使模型能够更充分地利用数据中隐含的知识,释放出最大的性能潜力。
当前,VLA 已成为具身智能领域的重要研究方向。但关于它的未来发展路径,业界仍存在分歧。有人认为,VLA 应该尽快覆盖人类可执行的所有任务,构建出一个通用的“基座模型”。但我认为,这种想法未免过于着急。
人类的感知不止于视觉与语言,我们还拥有触觉、力觉、听觉,甚至在做饭时还会用到嗅觉和味觉。这些感知能力共同构成了人类具身智能的基础。因此,VLA 应该被视为一个起点,而不是终点。真正实现类人智能,必然需要不断融合更多模态。
就当前阶段而言,VLA 最适合解决的任务是移动、抓取与放置。这些能力主要依赖视觉,再结合末端的触觉或力觉传感器,便可以完成较为复杂的操作任务,而这些技能在工业、商业服务等领域具有广泛的应用价值。
如果我们能够在这些任务上率先实现可泛化、可部署的 VLA 系统,不再需要对每个场景“翻译”和重建任务逻辑,那将是具身智能迈向真正实用化的关键一步,也可能标志着通用智能系统首次进入“高效落地”的新阶段。
卢策吾:VLA 确实很火。但我认为,它之所以重要,是因为它抓住了机器人核心能力的三大支柱:V(视觉)用于理解世界,L(语言)用于与人类沟通,A(行动)用于改变世界。这三者共同构成了机器人智能的本质。其中,语言(L)在这个结构中起到了非常关键的作用,像是一种“粘合剂”,能够把各种高层语义与底层感知、行动以统一的方式组织起来,从而实现复杂任务的整体理解与调度。
我也非常认同王老师的观点:VLA 模型具备很强的扩展性,但同时当前也面临诸多限制,我们还需要持续推进。我也非常认同具身智能要一步步落地,同时也要保持“星辰大海”的视野,最终推动它走向通用智能。
它面临的最大挑战在于,如果真的要做到“通用”,技术空间非常大。这和无人驾驶不一样。无人驾驶的决策维度相对固定,也基本不涉及碰撞和物理接触,场景边界清晰,所以整体空间比较收敛。而通用机器人面对的是一个高度复杂且动态的现实世界,因此要压缩这个决策空间,就必须在模型里做更多结构设计。
在这个过程中,VLA 就像是一个“火锅底料”,目前只能做到清汤寡水,只适用于一小部分任务。如果想服务更多场景,就得不停往里“加料”——本质上是往系统中引入更多额外的信息,让它变得更强大,同时还能在同一个框架下兼容更多模态。这种“加料”的过程,其实就是在构建更强的端到端压缩能力。
比如我们在穹彻一直在做的事情之一,就是通过“力反馈”来压缩空间。很多日常动作其实并不需要大脑时刻参与,比如擦桌子,是一种肌肉记忆动作,不必每毫秒计算轨迹。有了力反馈系统,机器人的稳定性提升很明显。如果没有这部分反馈,动作可能看上去可行,但鲁棒性不足,会出现“顿一下”“卡一下”的问题。引入力反馈后,系统能更有效地压缩动作空间,提高执行可靠性。
还有一个方向,就是对物理世界的理解。视觉系统在“偷偷”理解世界结构,我们要做的是让这种理解更清晰、更深入。如果能通过更强的物理建模和数据驱动,进一步压缩模型空间,就能显著降低数据需求。在我们下个月即将发布的第二版“具身大脑”中,也引入了很多新的机制,比如“数字基因”的概念——通过仿真合成生成高质量的数据资产,从而构建更有效的数据模型。而力反馈也带来了新的建模方式,让整个系统逐步实现“以更少的数据,做更复杂的事情”。
关键问题是:在这个巨大的决策空间里,我们究竟需要多少数据去拟合它?而答案可能不在于数据本身的规模,而在于我们能否找到更聪明、更深层的方式去理解世界,并将这些理解融入模型框架中。只有这样,VLA 才能真正向通用性推进。
我们也非常期待,这条路能一步步走向它的通用拐点。
王仲远:Karol 在主题演讲中也提到了 VLA,让我印象深刻的是“build a model to control any robot to do any task”这句话。针对这样一个跨本体的 VLA,在实际应用和研发过程中,你觉得目前遇到的最大瓶颈是什么?是技术层面的难题无法突破,还是更需要等待更大规模的数据和更长时间的发展?
Karol Hausman:确实,目前仍然存在一些瓶颈。其中最大的挑战是,现有模型完成的任务,往往并不是我们真正需要的目标。这背后反映出一个关键问题:算法能力还不够,仍需要进一步提升。
虽然我们现在拥有海量甚至几乎无限的数据,但用当前的算法去高效利用这些数据,仍然非常困难。因此,算法的优化和技术的突破是接下来的关键方向——这也是我们现在正在专注解决的问题。
如果你问我几个月前的看法,那时我可能还会认为数据获取是更大的难题。但现在,随着 π0.5 等新模型的出现,数据的获取和处理能力已有了显著提升。也正因如此,当前的核心瓶颈已经从“数据”转向了“算法”。
以上为本次圆桌的核心内容,那么你对具身智能技术的发展又有什么样的看法?欢迎留言分享你的看法。