机器人终身强化学习中的知识保存和组合

08-26 23:17

机器人终身强化学习中的知识保存和组合

扭矩泰坦

来源：CreateAMind
Preserving and combining knowledge in robotic lifelong reinforcement learning
机器人终身强化学习中的知识保存和组合
https://www.nature.com/articles/s42256-025-00983-2

人类能够在一生中不断积累知识，并发展出越来越复杂的行为和技能，这种能力被称为“终身学习”。尽管终身学习能力被认为是构成通用智能的一个基本机制，但最近的人工智能进展大多在狭窄的、专门的领域表现出色，通常缺乏这种终身学习能力。在这里，我们介绍了一个机器人终身强化学习框架，通过借鉴贝叶斯非参数领域开发的知识空间来填补这一空白。此外，我们通过将语言嵌入整合到框架中，增强了代理对任务的语义理解。我们提出的具身代理能够从连续的一次性喂养任务中持续积累知识。此外，我们的代理可以通过结合和重新应用从原始任务流中获得的知识，来解决具有挑战性的现实世界中的长周期任务。该框架推进了我们对机器人终身学习过程的理解，并可能启发更具广泛适用性智能的发展。
人类展现出一种卓越的终身学习能力，通过持续获取知识并适应新任务场景来实现。这涉及不断且逐步发展出越来越复杂的行为，被认为是实现通用智能的关键机制。最近的人工智能进展展示了代理在广泛任务中取得的显著性能，例如图像生成、文章写作和自动驾驶。然而，尽管当前的方法取得了令人印象深刻的结果，但它们主要集中在专门处理狭窄分布任务的代理上。相比之下，未经训练的代理通常在其一生中需要比人类更多的游戏体验，并且在适应新变体时难以有效泛化。机器智能代理和人类之间的一个显著差距是当前智能代理缺乏终身学习能力。终身学习，也称为增量学习或持续学习，旨在解决从连续任务流中异步获取知识的挑战，同时减轻遗忘。其主要目标是逐步扩展积累的知识，并将其用于持续的学习任务，通过知识的组合和再应用构建更复杂的行为。本研究聚焦于机器人终身强化学习（LRL），这是一个强化学习为代理-环境交互提供框架的领域，非常适合以序列方式探索学习过程。图1a说明了机器人环境中一般LRL代理的训练过程。给定一个无限的机器人任务流，代理连续地逐个掌握这些任务，持续积累知识和技能。

对于基于深度学习的算法来说，面对任务流时的主要挑战是平衡神经网络的稳定性和可塑性。在这种情况下一个常见问题是“灾难性遗忘”。这指的是当代理学习新任务时，与之前学到的技能相关的神经网络参数会被迅速覆盖。因此，当重新访问之前掌握的任务时，代理的性能会大幅下降。最近的终身机器学习研究引入了各种方法，包括正则化、结构模块化和经验回放。然而，这些方法主要应用于传统机器学习领域的静态数据集，如视觉任务分类，其在机器人学习中的有效性尚不清楚。正则化可能导致不恰当的参数偏移和错误累积，而结构模块化在面对未知数量的任务时可能难以动态适应。没有回放，正则化和结构模块化方法倾向于在预定义任务上过拟合，缺乏在终身学习中适应新任务的灵活性。

我们的方法并不严格属于这些类别中的任何一个，而是从这些方法中汲取灵感，旨在克服它们的局限性，同时发挥它们的优势。

在深度强化学习的背景下，避免“灾难性遗忘”的一个常见想法是多任务强化学习（MTRL）。在MTRL中，代理在训练期间同时访问所有任务，避免了深度神经网络固有的遗忘问题。该领域的最新工作包括基于上下文注意力的表示学习、软模块化、特征级线性调制以及其他基线。然而，MTRL偏离了实际的人类学习模式。尽管MTRL试图通过同时提供各种任务的数据来避免灾难性遗忘的问题，但这个问题仍然存在于序列学习过程中。此外，它依赖于预定义的任务分布范围，这些范围通常范围有限，在遇到新的非参数化任务变异性时难以泛化。这种变异性显示出定性区别，不能通过连续参数来充分描述，因为它们需要模型学习全新的规则和交互集合，从而挑战了它们的泛化能力。受MTRL的启发，另一组解决稳定性-可塑性困境的方法被称为“学会学习”或元强化学习。最近的研究提供了多种方法，使代理能够在各种任务分布中获取知识，并基于获取的知识以少样本或零样本的方式适应新任务。一个显著的例子是连续环境元强化学习，它在其任务编码器的先验空间中引入了高斯混合模型，可以在元级别推理和聚类任务的潜在表示。然而，高斯混合模型由于依赖于预定义的任务数量而面临局限性，这一假设与LRL中通常未知或无限的任务数量不兼容。

本研究旨在开发一个用于机器人终身学习的深度强化学习框架。重点是从一次性喂养任务场景流中持续学习和保留知识。所提出的代理不会忘记它获得的知识，并且在其一生中可以持续稳定地执行相应任务。此外，我们的框架旨在通过有效组合和再应用从持续任务流中获得的底层知识来处理更复杂的长周期任务。这突出了其逐步发展越来越复杂行为的增量能力。为了实现这一目标，我们开发了一个框架，该框架受到贝叶斯非参数领域中著名的狄利克雷过程混合模型（DPMM）的启发，并采用了记忆化的变分贝叶斯推理方法。这种组合使得在上游层面可以同时进行任务推理和异步知识保留。此外，我们的框架利用基于自然语言的辅助信息来协助任务推理。这些信息由预训练的大型语言模型编码。由此产生的语言嵌入为代理提供了对当前任务场景的丰富上下文洞察，有助于在知识空间中实现更精确、更解耦的表示。因此，DPMM和语言嵌入的协同作用有助于更准确的下动模式学习。此外，我们的具身代理通过在其终身学习过程中结合和再应用获得的知识，展示了在现实世界中解决具有挑战性的长周期操作任务的能力。这展示了其实现通用智能的潜力，并可能激发更具广泛适用性的智能代理的发展。我们将我们提出的框架命名为LEGION：一个基于语言嵌入的非参数贝叶斯生成式增量离线强化学习框架。

结果

在本节中，我们介绍了我们LEGION框架的测试结果。我们首先展示了其在现实世界操作任务中的性能，包括长周期任务和原始单任务训练序列。接下来，我们评估了先验空间中知识的保留情况。此外，我们提供了定量数据来评估我们框架内终身强化学习（LRL）的关键方面。最后，我们强调了我们的非参数化知识空间在少样本知识回忆中的贡献。模拟和现实世界实验的实验设置详细描述在“方法”部分的“训练和部署”以及补充部分5中。

操作性能

长周期任务。我们框架的部署设置如图1b所示。为了提供任务描述的人类命令，我们使用语音识别设备和预训练的大型语言模型（LLM）。经过训练的具身代理接收以语言嵌入为条件的状态观察作为输入。在接收观察后，任务编码器推理出应应用的知识。随后，下游策略生成相应的动作以完成任务。在现实世界场景中，我们使用KUKA iiwa机器人臂作为我们的具身化，并使用全局RealSense相机获取视觉信息。现实世界的视频演示（补充视频1）展示了我们的具身代理成功完成了长周期任务“清理桌子”，该任务由七个连续的子任务组成。我们的代理通过重新组合从一次性喂养任务流中获得的知识来完成此任务（图2），展示了其在面对多样化和具有挑战性的任务分布时的有效泛化能力。这种能力反映了人类一生中的学习过程，并被认为是通用智能的关键机制。传统方法处理此类长周期任务通常依赖于人类演示进行直接模仿。然而，这些方法在面对多样化任务分布和序列时，往往导致泛化和灵活性有限。相比之下，我们的框架在任务执行顺序上提供了灵活性，允许代理通过组合和再应用获得的知识以任何顺序完成整个任务。为了突出我们提出的框架的泛化和灵活性，我们随机重新排序子任务，并在补充视频2中提供了两个额外的演示。由于我们广泛的任务假设包括具有严格子任务条件的长周期任务作为子集，我们还展示了我们的代理如何解决传统的严格条件长周期任务“制作咖啡”（补充部分3.2）。

任务流。给定一个一次性喂养任务流，我们提出的LRL代理可以持续掌握任务，一个接一个，而不会忘记之前获得的知识。这种增量学习方法模仿了自然的人类学习过程，并有潜力取代并最终超越现实世界应用中低效的手动服务。为了评估我们提出的代理的终身学习能力，我们实施了十个不同的机器人操作任务来构建任务流。我们的代理可以从这个流中异步获得知识，并最终实现给定的长周期任务（补充视频1）。代理在切换到下一个任务之前，每个任务训练100万步。任务序列遵循从易到难的任务顺序（补充部分3.1）：“到达→推动→抓取-放置→开门→打开水龙头→关抽屉→按按钮→拔出插头→开窗→关窗”。

为了展示我们提出的框架在其原始序列任务分布上的性能，我们在图2中展示了其现实世界任务的快照，并在补充视频3中提供了所有任务的视频。从快照和视频中可以看出，我们提出的具身代理在给定的时间步内完成了所有任务。此外，在每个现实世界任务中，我们至少进行了三次试验，改变初始物置和目标位置。这些试验的平均成功率列在扩展数据表1中。为了展示在给定基础任务分布内的稳定性和鲁棒性，我们的具身代理一致地完成了各种操作任务，包括“到达”、“打开水龙头”、“关抽屉”、“按按钮”和“开/关窗”，利用异步获得的知识。对于一些更具挑战性的任务，如“推动”、“抓取-放置”和“开门”，我们的代理也可以保持至少0.67的成功率。

知识保留

我们通过t分布随机邻域嵌入（t-SNE）可视化来直观理解，并通过统计分析来定量评估训练期间的性能，从而评估知识保留情况。此外，补充部分3.3提供了一个详细的消融研究，突出了我们的贝叶斯非参数化知识空间和语言嵌入的贡献。

可视化。在我们的框架中，任务编码器最初推理状态输入并生成潜在样本作为推理结果。随后，推理出的任务结果被拟合到非参数化知识空间中。为了评估获得的知识如何在其空间中被保留和管理，我们使用t-SNE在二维平面上可视化我们的知识空间。图3a-e分别显示了在训练两个、四个、六个、八个和所有十个任务后知识空间的投影。每个彩色组表示一个完整的任务轨迹，并被分配到我们非参数化知识空间的一个聚类组件中。此外，这些样本的顺序由相应的颜色透明度表示，从浅到深逐渐变化。值得注意的是，我们提出的知识空间中的狄利克雷过程混合模型（DPMM）模块可以在切换环境时生成新组件以存储新的任务推理结果，从而促进推理和存储新知识的能力。此外，为了评估我们的知识空间如何处理获得的知识，我们让代理进行两次训练循环。在第二次循环中，代理重新访问之前掌握的任务，其知识已保留在代理的知识空间中。在这个阶段，代理被期望直接利用现有知识来完成任务，而不是在其先验空间中推理一个新的任务知识聚类。我们在图3f中展示了第一次循环（圆形标记）和第二次循环（交叉标记）的结果。t-SNE结果表明，我们提出的LEGION框架可以推理和识别早期获得的知识，并将其合并到与各个任务相关的现有聚类组件中。

统计。为了定量评估我们提出的框架，我们在表1中展示了每个任务在传统多任务和终身训练过程中的性能结果。对多任务强化学习（MTRL）的评估可以深入了解我们框架在同步知识获取和保留方面的表现。在终身学习的背景下，我们采用从易到难的任务顺序策略，代理首先学习基础任务，这些任务是掌握后续更复杂行动模式的里程碑。关于其他任务顺序变化的更多细节，请参阅补充部分3.1。我们在表格中按行报告每个任务的成功率，按列报告代理在一次性喂养任务流上训练后的表现。例如，最左边的第一列代表代理在训练“到达”任务后对所有任务的表现。此外，我们引入了两个额外的指标来评估我们终身可学习代理的具体特征，即“遗忘”和“正向迁移”。“遗忘”是一个范围在[−1, 1]内的标量指标，表示我们提出的代理在其生命周期结束时可能忘记多少知识。该指标的值越低，表示性能越好。“正向迁移”则相反，范围为[0, 1]，考虑早期任务知识对后续任务的帮助程度，值越大表示性能越好。关于这些指标的更多细节，请参阅公式（2）和（3）。我们还在表格的右列报告了代理的多任务性能。表格中的每个数据都是基于五个随机种子的试验得出的。最后一行计算了沿列的数据平均值。

少样本知识回忆。知识复习是终身学习的一个关键组成部分。最近的研究，特别是在计算机视觉领域，已经表明复习在学习过程中能有效减轻遗忘。然而，这一技术在机器人领域，数据是连续且按时间顺序排列的，是否表现同样出色仍不清楚。此外，最近的生物学研究表明，知识复习有助于巩固长期记忆，并通过深度记忆回忆提高表现，即使在长时间暂停之后也是如此。基于这些见解，我们探索了我们提出的代理在只有间歇性复习的情况下进行少样本知识回忆的表现。

为了展示现有的基于复习的终身学习方法在机器人强化学习中的应用及其潜在局限性，我们进行了与这些基线方法的对比实验。所有模型都使用相同的软演员-评论家（SAC）策略，包括神经网络主干和共享的超参数。每个实验至少重复五次，并使用评估期间的平均成功率和标准差作为指标，以确保公平性。以下基线模型被用于比较。（1）水库。这个基线使用“水库”采样方法在缓冲区中近似观察样本的经验分布。缓冲区被设计为保持最大50%的数据比例。与我们的框架不同，这个模型不包括上游推理和知识保留模块，因此其策略网络输入仅由原始任务观察组成，不包括上游推理表示。这使我们能够评估我们提出的贝叶斯非参数化知识空间在任务推理、知识保留及其对整体任务表现的影响方面的优势。（2）完美记忆。基于“水库”基线，我们将缓冲区大小扩展到与总训练步数相匹配，这意味着所有过去的轨迹都被存储，不会被遗忘或覆盖。（3）平均梯度情景记忆（A-GEM）是一种基于复习的方法，将终身学习视为一个约束优化问题。它基于旧训练样本构建一个全局损失，以确保在先前任务上不损失性能，通过投影新样本梯度来避免干扰。在这里，对于每个基础任务，我们保持一个10,000的剧集记忆。

图4a显示了评估期间的平均成功率。如图所示，我们提出的LEGION框架始终优于其他方法，随着新任务的引入，成功率稳步上升。尽管完美记忆保持了一个完整的缓冲区，但其成功率在训练过程中始终在0.2左右，没有明显的提升，突出了其在任务流进展过程中适应或泛化的局限性。同样，水库显示出一个平坦的表现曲线，没有显著的提升，A-GEM在我们的基准测试中也表现不佳。为了进一步说明基于复习的方法在机器人LRL中的局限性，图4b可视化了训练批次中的数据比例。例如，在训练第二个任务“推动”后，“推动”的数据比例最初保持在大约50%。然而，随着代理进入后续任务，这一比例逐渐下降，到训练结束时最终降至大约10%。相比之下，在多任务强化学习（MTRL）中，代理在批次中以恒定的数据比例训练各个任务，确保稳定的学习条件。在终身学习过程中，数据采样过程的这种差距可能会削弱知识保留，并随着时间的推移导致整体性能下降。我们的框架通过使用贝叶斯非参数化知识推理和聚类模块来应对这一挑战，这确保了在终身学习过程中，尽管数据比例波动，但知识得以一致保留，性能保持稳定。

为了评估我们的代理在暂停任务一段时间后的知识回忆表现，我们从原始序列中选择了5个任务，按从易到难的顺序排列，并在3个重复循环中依次对代理进行训练（每个任务100万步）：“到达→推动→打开水龙头→按按钮→关窗”。在回放缓冲区中，我们仅分配了三个任务的数据空间。这意味着在训练第四个任务时，第一个任务的数据将逐渐被第四个任务的数据替换，等到第五个任务时，第一个任务的回放数据将不再可用。在第二个循环中，我们重新访问第一个任务，并将其在第二个循环中的表现与第一个循环中的表现进行比较。这一过程在第二个和第三个循环中对其他任务也类似地重复进行。扩展数据图1显示了所有三个循环中每个任务学习后的知识空间的t-SNE投影。图4c–g显示了每个任务在第一个循环（橙色）和随后的第二个（绿色）和第三个（蓝色）循环中的平均成功率。如图所示，尽管每个任务暂停了100万步，但代理在第二个和第三个循环中迅速重新掌握了这些任务，超过了其最初的性能。我们的框架在后续循环中通过少样本尝试，所有任务都显示出更快的收敛速度，强调了少样本记忆回忆的好处。这反映了记忆术的生物学理论，即知识保留支持任务的重新掌握。具体来说，在“到达”任务中，尽管有强制暂停，代理始终保持着知识，在最初的评估检查点上达到了0.3–0.4的成功率。此外，与最初的尝试相比，代理在最后一个循环中显示出平均成功率提升了0.2。在第三个循环中经过少样本知识回忆后，框架在大多数任务上达到了最大成功率。这一提升归功于我们的框架利用狄利克雷过程混合模型（DPMM）实现的有效深度记忆回忆。

为了量化少样本知识回忆的提升，我们使用公式（4）计算每个任务的提升百分比（扩展数据表2）。结果显示，不同任务之间的提升有所不同：“到达”任务为19.63%，“推动”任务为6.66%，“打开水龙头”任务为16.77%，“按按钮”任务为9.94%，“关窗”任务在第一个和第二个循环之间为6.78%。此外，比较第一个和第三个循环揭示了更大的成功率提升。平均而言，我们的框架在第一个和第二个循环之间显示出11.96%的提升，从第一个到第三个循环有显著的21.36%的提升。这些发现突出了我们的框架在有效知识回忆、快速适应和通过少样本探索提高任务性能方面的强大能力。多个任务中持续的提升强调了其在重新掌握任务和保持高成功率方面的稳健性，展示了我们框架，特别是DPMM知识空间在推进终身强化学习方面的潜力。

讨论

机器人终身学习专注于从连续的任务流中获取和保留知识，使代理能够通过知识的整合和重用逐步构建更复杂的行为。我们的研究提出了一个深度强化学习框架，能够从任务流中持续积累知识，展示了类似人类的终身学习能力。此外，它通过组合和再应用获得的技能来解决复杂的长周期任务，这是实现通用智能的关键一步。

在我们的现实世界实验中，使用KUKA机器人臂，我们的代理借助RealSense相机的实时视觉和来自大型语言模型（LLM）的语言嵌入，成功完成了一系列任务，高效地积累知识，并展示了在没有预定义人类演示的情况下，针对长周期任务的灵活、自主的技能再应用能力。在我们的终身强化学习（LRL）框架中，我们通过可视化和统计两个角度分析了知识管理。知识空间中的非参数化模型通过创建或合并组件动态适应新任务输入，确保在没有预先设定知识数量要求的情况下持续保留知识。从定量角度看，代理的成功率随时间提高，展示了在LRL中有效的知识积累。

总的来说，我们的框架LEGION（详情见图5）在终身学习过程中，其贝叶斯非参数化知识空间在保留知识和推理新任务方面表现出色。借助语言嵌入来辅助任务推理，代理能够高效地承担长周期任务，展示了基于积累知识应对复杂任务的灵活性。我们承认，由于我们的框架使用软演员-评论家（SAC）作为策略，其依赖于从缓冲区采样数据和离线参数更新，因此复习机制是我们框架的一个固有部分。然而，复习并不是严格与我们使用贝叶斯非参数化知识空间的方法相关联的，而是SAC本身的一个特征。我们的框架目前在少样本探索方面表现出显著的改进，即使在间歇性复习的情况下也是如此。在未来，我们计划进一步优化它，以更好地平衡稳定性和适应性，而不依赖于复习缓冲区，同时我们也计划应对更具挑战性的场景，例如零样本推理。与此同时，我们承认我们当前的框架在具有预定义任务设置的结构化环境中运行，并依赖于AprilTags进行感知。在未来的工作中，我们计划将我们的框架扩展到具有多样化物体排列和未见物体的非结构化、动态环境中，目标是增强终身学习系统的泛化和鲁棒性。此外，我们计划探索将我们的非参数化知识空间应用于涉及多个代理或异构具身化的机器人学习（补充部分3.5），旨在实现集群化和可转移的通用智能。由于我们当前的工作假设奖励函数是环境的一个固有且静态的属性，另一个有前景的未来方向是使用LLMs在终身学习过程中进行持续的奖励细化。这将使代理能够快速适应全新的控制任务。此外，利用非参数化知识空间从任务流中持续学习和保留技能的能力，结合扩散模型从下游产生的平稳和稳定的动作输出，为开发广泛适用的大型行为模型提供了潜力。

方法

训练和部署

训练。图5a展示了我们提出的LEGION框架的概念概述。与典型的多任务方法不同，代理一次性学习所有任务，我们的框架可以从一次性喂养任务流中持续获取知识。这意味着我们的代理能够模仿真实的人类学习过程，在其一生中依次处理每个操作任务。

在训练期间，我们让代理逐个学习任务，允许代理对每个任务进行100万步的训练。重要的是，我们每10,000步就按照传统的多任务方式评估代理在所有任务上的表现，无论它是否已经接受过这些任务的训练。在我们的框架中，我们遵循离线策略训练模式，因为它具有更高的采样效率。为了同时实现保留现有知识和推理新任务，我们提出的框架分层为两部分，即上游任务推理和知识保留模块以及下游策略学习模块。上游模块包括以下组件：预训练的语言嵌入模块、任务编码器、狄利克雷过程混合知识空间和生成模块。在模拟中，我们采用离线方法，使用LLM结合语音识别设备预先对语言嵌入进行编码，并将其存储用于训练。这一预处理步骤通过消除对实时编码的需求（这在计算上非常密集）来加速训练。关于语言辅助信息内容的具体细节，请参阅补充部分7。随后，包括末端执行器、物体和目标位置的任务状态观察s与当前任务的语言嵌入I结合，并发送到任务推理编码器。之后，生成的推理结果z由知识空间中的DPMM拟合。来自同一任务的推理结果被聚类并存储在DPMM的同一组件中，从而在我们的框架中实现知识保留。在处理来自新任务分布的数据样本时，DPMM可以创建新组件来容纳它们，从而将它们与现有聚类分开，并支持代理在其终身学习过程中的持续知识积累。同时，生成模块重建语言嵌入并预测当前任务的动态函数。这使得上游和下游模块之间能够进行解耦的参数更新。此外，补充部分3.4中的消融研究表明，生成模块在稳定终身学习过程中发挥着关键作用。对于图5a中定义的下游策略模块，我们使用SAC作为具体的策略学习模块，其中评论家计算动作价值函数图片，演员提供相应的动作模式图片以完成任务。推理出的任务结果作为下游输入的一部分，有助于更精确的动作模式学习。各个模块的具体结构在补充部分4中介绍。

部署。在模拟环境中训练完成后，我们将训练好的代理部署到现实世界的KUKA操作器上，构建一个具身化的终身学习代理。现实世界部署的概述如图5b所示，其中框架包括两个主要部分：具身代理软件端和现实世界硬件端。在软件端，我们部署了训练好的任务编码器、DPMM和下游演员，以创建具身代理。在现实世界的演示中，我们采用在线编码方法，将人类命令处理并编码为语言嵌入以执行每个任务。这种设置反映了现实世界的使用情况，允许用户直接向机器人发出口头命令。对于硬件端，我们的代理的物理身体包括一个带有Robotiq 2F85夹具的KUKA iiwa。此外，我们使用一个位于桌边的全局RealSense相机通过AprilTags捕捉物置。之后，通过检测到的物体的初始位置和相应的辅助信息上下文确定与任务相关的目标位置。基于Python的机器人操作系统控制KUKA的运动，系统频率为20赫兹。我们将单个任务轨迹的总工作步骤限制为150，与模拟环境保持一致。为了确保软件和硬件控制之间的顺畅通信，我们采用两个转换模块，即“Sim2Real”和“Real2Sim”。这些模块具有类似的功能，包括安全控制检查、模拟与现实世界之间的坐标框架转换、手眼标定和相机偏移设置。详细的模拟和部署实验设置可以在补充部分5中找到。此外，我们提供了补充视频4，介绍我们框架的训练和部署过程的实施细节。

语言嵌入。机器人手臂执行的操作任务自然倾向于有限的一组动作模式。一方面，像“将茶杯从左推到右”和“水平方向打开窗户”这样的任务可能在语言描述上有所不同，但它们的实际动作模式可能具有相似的轨迹。这种相似性可能会在代理训练过程中带来挑战，导致不准确的动作模式和/或在现实世界表现中的误操作。另一方面，尽管这种与任务相关的上下文信息（或辅助信息）通常在现实世界场景中可用（例如，在人与人之间的交流中），但传统强化学习方法经常忽视它，并且很难在没有LLM编码的情况下将其提供给具身代理。通过利用LLM的最新进展，我们的具身LRL代理更擅长利用这种辅助信息（如基于自然语言的任务描述）来获取可泛化的技能，并促进任务之间的知识转移。在本研究中，我们通过外部语音识别设备捕获自然语言辅助信息。我们采用人在回路的方法来指导具身代理完成现实世界中的任务。在我们的案例中，我们采用了最先进的预训练LLM之一，RoBERTa，将关于操作任务的辅助信息编码为语言嵌入。随后，这些嵌入与状态观察相结合并提供给代理，以帮助准确的任务推理并提高其执行相应动作模式的能力。

观察空间。状态观察空间包括末端执行器位置（三个维度）、物体姿态（六个维度）和目标位置（三个维度）。我们使用预训练的RoBERTa模型对与任务上下文相关的语言辅助信息进行编码，其输出具有768个维度。

变分推理。在这项研究中，我们专注于基于变分推理的方法来估计数据的真实后验分布，因为它们通常比基于采样的方法提供更快且更具可扩展性的解决方案。变分推理背后的基本概念是将推理问题转化为一个优化问题。随后，目标是揭示未知参数的潜在联合概率分布，使我们能够探索它们之间的隐含关系。在狄利克雷过程混合模型（DPMM）的情况下，如方程（5）所述，其参数的联合概率分布可以表示如下：

在DPMM的背景下，基于变分推理的概念，我们在平均场假设下构建变分分布q，其中每个潜在变量都有其对应的变分因子，并且这些因子彼此之间被认为是独立的。具体来说，我们有：

上游任务推理

在本节中，我们介绍我们上游任务推理模块（图5a）背后的推导过程。我们从我们知识空间的推理和保留过程开始。随后，我们介绍上游模块的生成过程，这些模块能够使学习过程去耦合和稳定。

知识推理和保留。为了在知识空间中同时进行知识推理和保留，我们采用在前一节中介绍的DPMM + memoVB。DPMM + memoVB的优势在于能够根据观察结果聚类潜在无限数量的特征，同时动态适应以适应各个组件的数量、形状和密度。这种动态适应性在连续任务流中保留知识方面具有很大的潜力。

其中 ζ 和 η 表示每个损失函数项的加权因子，这些因子调节每个生成模块的重要性。ξ 表示KL散度项的去耦因子。总之，生成模块促进了去耦合的学习过程，不受下游策略训练的影响。这种设置稳定了下游策略模块的探索过程，特别是在每个任务的初始步骤中不可避免地存在噪声的情况下。同时，重新生成语言嵌入和建模状态转移函数有助于代理学习更准确的操作模式，以应对单个操控任务。有关生成过程相关损失函数的详细推导，请参阅补充部分11.2。

原文链接：

https://www.nature.com/articles/s42256-025-00983-2
来源：人工智能学家