精工解码
当家庭服务机器人面对“把马克杯放进抽屉并关紧”“将西兰花放入冰箱保鲜层”这类多样化任务时,我们总希望它能像人类一样“举一反三”。
传统多任务模型为了兼顾通用性,往往陷入“样样通却样样松”的负迁移困境;现有检索式学习要么困于领域特定编码器的局限性,要么受限于全轨迹检索的粗粒度,无法挖掘不同任务间共享的底层动作规律。
就在这样的技术困局中,华盛顿大学与博世人工智能中心联合提出的STRAP(Sub-sequence Trajectory Retrieval for Augmented Policy Learning)框架横空出世,以“子轨迹检索”为核心创新点,构建了一套从数据利用到政策训练的完整解决方案。
项目链接:https://weirdlabuw.github.io/strap/static/documents/strap_2025.pdf
一、STRAP有什么用?
在STRAP出现之前,机器人少样本模仿学习始终被三重枷锁牢牢束缚,这些痛点也直接催生了STRAP方法体系的设计逻辑。
1、多任务学习的“负迁移陷阱”
多任务策略训练的初衷本是“集百家之长”——通过整合大量不同任务的数据,让模型习得通用技能以适应新场景。但现实往往事与愿违:不同任务的语义逻辑存在天然冲突,模型为了覆盖更多任务,不得不牺牲单任务的优化精度,最终陷入“平均主义陷阱”。
比如训练一个同时包含“拾取易碎花瓶”和“搬运沉重铁块”的模型时,前者需要轻柔缓慢的动作,后者需要果断有力的发力,模型很难同时兼顾两种动作的核心特征,导致在单独执行任一任务时都表现拉胯。
2、传统检索方法的“粒度困境”
检索式学习本是少样本场景的“救星”——利用少量目标任务数据,从大规模离线数据集中检索相关样本辅助训练。
但现有方法存在两大致命缺陷:
一是“特征鲁棒性不足”,依赖在特定数据集上训练的领域特定编码器,一旦环境光照、物体纹理发生变化,特征提取就会“失效”;
二是“检索粒度不合理”,要么检索单个状态-动作对,丢失了动作的时序动态信息;要么检索完整轨迹,而完整轨迹中往往包含大量与目标任务无关的片段,同时无法捕捉不同任务间共享的局部行为。
举个具体的例子:当目标任务是“将碗放入橱柜抽屉并关闭”时,现有全轨迹检索方法可能因为找不到“完全一致的完整轨迹”而束手无策,却忽略了“拾取碗”“推动抽屉关闭”这些核心子动作,在“将杯子放在抽屉上”“打开顶柜并关闭底柜”等其他任务中其实普遍存在。
这种“捡了芝麻丢西瓜”的检索方式,让大量有价值的跨任务数据被浪费,直接限制了模型的泛化能力。
3、视觉差异与数据效率的“矛盾死结”
现实世界的机器人操作场景,天生具有“多样性”特质:同样是“拾取苹果”,在厨房的暖光环境下、书房的冷光环境下,甚至苹果表面是否带水珠,都会导致视觉观测的巨大差异。现有方法大多依赖“场景专属”的特征提取器,环境一变,特征表示的鲁棒性就急剧下降,检索和训练效果自然大打折扣。
同时,机器人学习对“数据效率”的要求极高。在家庭服务场景中,不可能为每个新任务收集几十上百次专家演示——不仅耗时耗力,还可能因场景限制(如操作易碎品、危险品)无法重复收集。
正是这三重枷锁的叠加,让研究团队意识到:必须跳出“全轨迹检索”和“多任务蛮力训练”的固有思维,从“子轨迹”这一更精细的粒度切入,构建一套全新的方法体系——STRAP由此诞生。
二、STRAP的核心方法
如果把STRAP比作一台精密运转的“智能检索-训练引擎”,那么子轨迹分割、视觉特征编码、子序列动态时间规整检索(S-DTW)、语言条件政策训练这四大模块,
1、子轨迹分割:
其核心逻辑很简单:机器人执行原子动作时,末端执行器的速度会呈现“启动-稳定-停止”的规律;而在两个原子动作之间的过渡阶段,末端执行器的速度会趋近于零。基于这一特性,STRAP设定了一个速度阈值,当机器人末端执行器的速度绝对值持续低于该阈值时,就判定为“动作过渡点”,以此为界分割子轨迹。
比如在“拾取碗-放入抽屉-关闭抽屉”的完整轨迹中,机器人拾取碗后会有短暂的停顿(速度趋近于零),这个停顿点就会被识别为“拾取碗”和“移动碗到抽屉”两个子轨迹的分界点;而在将碗放入抽屉后,又会有一个停顿点,分割出“移动碗到抽屉”和“关闭抽屉”两个子轨迹。为了避免分割出过短的“无效片段”,STRAP还会对长度小于20个时间步的子轨迹进行合并,确保每个子轨迹都能完整反映一个原子动作的动态过程。
这种自动分割方法的优势显而易见:
一是完全脱离对外部标注的依赖,适配任意任务场景;
二是分割精度高,能精准捕捉原子动作的边界;
三是效率极高,可实时处理机器人的轨迹数据。正是这一模块,为STRAP后续的精准检索打下了“零件级”的基础。
2、视觉特征编码:
子轨迹分割完成后,下一步就是提取特征——这是检索的“核心依据”。传统方法的痛点在于,特征提取器是“场景专属”的,换个环境就“失灵”。STRAP的解决方案是:直接采用预训练的视觉基础模型作为特征提取器,利用其在海量数据上习得的“通用视觉认知能力”,抵御场景变化的干扰。
具体的编码过程非常简洁:STRAP将机器人的相机观测(包括手部特写相机和全局场景相机的图像)输入视觉基础模型,直接输出768维的特征向量。与传统方法不同的是,STRAP不会对一个子轨迹中的连续观测特征进行“时序平均”,而是完整保留每个时间步的特征向量——因为原子动作的动态性恰恰体现在“特征随时间的变化规律”中,平均化会丢失关键的时序信息。
为了验证这种编码方式的鲁棒性,研究团队做了一组对比实验:分别用DINOv2、CLIP和传统的领域特定编码器提取特征,在不同光照、不同物体姿态的场景下进行检索。
更重要的是,这种编码方式完全“开箱即用”——不需要在机器人数据集上进行任何微调,极大降低了部署门槛。对于机器人开发者而言,只需将相机图像输入预训练模型,就能得到鲁棒的特征向量,无需再花费大量精力训练专属编码器。
3、S-DTW检索:
有了“零件”(子轨迹)和“语言”(特征向量),接下来就是最关键的一步:如何从大规模离线数据集中,精准找到与目标子轨迹最相似的子轨迹?这就需要解决两个核心问题:一是目标子轨迹与候选子轨迹的“长度可能不同”;二是两者的“时序节奏可能存在差异”(比如一个动作快,一个动作慢)。
S-DTW的运作过程可以分为“三步走”,我们用一个具体例子来理解:假设目标子轨迹是“拾取碗”(包含50个时间步,特征序列为Q),候选轨迹是“拾取杯子-移动到桌面-关闭抽屉”(包含200个时间步,特征序列为C),我们需要从C中找到与Q最相似的子片段。
第一步,构建“距离矩阵”。 计算Q中每个时间步的特征向量与C中每个时间步的特征向量之间的L2距离(欧氏距离),得到一个50×200的矩阵。矩阵中的每个元素(i,j)代表Q的第i个时间步与C的第j个时间步的特征相似度——数值越小,相似度越高。
第二步,计算“累积距离矩阵”。通过动态规划的方式,从矩阵的左上角(Q[0], C[0])开始,逐步计算每个位置(i,j)的累积距离。累积距离的计算公式为:当前距离(i,j)加上“前一步的最小累积距离”(可以是(i-1,j)、(i,j-1)或(i-1,j-1)中的最小值)。这一步的核心作用是“允许时序错位”——比如Q的第10个时间步,可以与C的第12个时间步对齐,只要整体的累积距离最小。
第三步,回溯找到“最优匹配子片段”。遍历累积距离矩阵的最后一行(对应Q的最后一个时间步),找到累积距离最小的位置(50,j);然后从该位置反向回溯,找到一条累积距离最小的路径,这条路径对应的C中的子片段,就是与Q最相似的子轨迹。
与传统检索方法相比,S-DTW的优势堪称“降维打击”:一是能处理“长度不一致”的序列,比如50步的目标子轨迹可以匹配70步的候选子片段;二是能实现“局部匹配”,从完整轨迹中精准提取有用的子动作;三是能保证“时序一致性”,避免单个状态匹配带来的动态信息丢失。
在实际检索时,STRAP会为每个目标子轨迹检索K个最相似的子轨迹(K值可根据任务调整),然后将这些检索到的子轨迹组合成“增强训练集”。
4、语言条件政策训练:
这个政策模型的结构设计非常精巧,分为“输入层-融合层-预测层”三个部分。
输入层包含两个分支:
一是“历史观测分支”,将过去h个时间步的视觉特征输入时序编码器(采用Transformer的编码器结构),捕捉动作的动态规律;
二是“语言指令分支”,将目标任务的自然语言指令(如“将碗放入橱柜抽屉并关闭”)输入文本编码器,转化为语义特征向量。
融合层通过注意力机制,将历史观测特征与语言语义特征进行深度融合——模型会自动关注与语言指令相关的视觉特征,比如当指令是“放入橱柜”时,模型会重点关注“橱柜”的视觉特征,而非背景中的“餐桌”。预测层则采用高斯混合模型,根据融合后的特征预测未来多个时间步的动作序列(包括位置、姿态、抓取力等连续动作参数)。
在训练过程中,模型的损失函数由两部分构成:
一是“多步动作对数似然损失”,确保模型预测的动作序列与真实动作序列尽可能一致;
二是“L2正则化项”,防止模型因过度拟合检索数据而丢失目标任务的核心特征。
训练数据采用“目标任务数据+检索增强数据”的混合批次,其中目标任务数据占比10%-20%,确保模型不会偏离目标任务的核心要求。
三、总结与展望:
STRAP的横空出世,不仅解决了机器人少样本模仿学习的三大核心痛点,更开启了一种全新的学习范式——将大规模离线数据集视为“原子动作知识库”,通过子轨迹检索按需提取有用信息,实现“少量示范+精准检索+高效训练”的闭环。其核心方法体系的创新点,可以概括为三点:
一是“粒度革新”,将检索从“完整轨迹”下沉到“子轨迹”,挖掘了跨任务共享的原子动作,从根本上解决了负迁移问题;
二是“特征鲁棒化”,借助预训练视觉基础模型,摆脱了对领域特定编码器的依赖,提升了场景适应性;
三是“语义融合”,通过语言条件政策模型,过滤了检索数据中的噪声,确保了训练的有效性。
当然,STRAP并非完美无缺。在子轨迹分割方面,目前的速度阈值法对“连续无停顿动作”(如搅拌咖啡)的分割精度仍有提升空间;在检索效率方面,面对百万级轨迹数据集时,S-DTW的计算成本仍需优化。未来,研究团队可结合视觉基础模型的语义信息,实现“语义级子轨迹分割”;同时引入近似最近邻索引算法,进一步提升大规模数据集的检索速度。