香港科技大学(广州)机器人系的一年级博士生宋文轩是本文的首位作者,他的主要研究领域是VLA模型。另一位共同第一作者是来自香港科技大学广州的研究助理陈家毅。此项目的负责人是浙江大学与西湖大学联合培养的博士生丁鹏翔。他们所在的团队同时参与了具身智能领域开源项目OpenHelix以及LLaVA-VLA的研究工作。香港科技大学广州分校的李昊昂教授担任通讯作者,他荣获了CVPR2025年度最佳论文候选人称号。
近年来,视觉-语言-动作(Vision-Language-Action, VLA)模型凭借其卓越的多模态理解和广泛适用性,在机器人研究领域占据了核心地位。尽管这一领域的技术发展取得了显著成就,但在实际应用过程中,特别是在处理高频次和精细操作任务时,VLA模型依然面临着推理速度方面的重大限制。
针对这一难题,有研究建议改用Jacobi解码来替换以往常用的自回归解码方法,旨在提高推理的效率。但实际情况是,Jacobi解码通常需要更多的迭代步骤,因此在实际应用中的加速效果并不显著。
为此,我们设计了一种名为一致性蒸馏训练的方法,此方法能够让模型在每一次迭代过程中,同时预测出多个正确的动作标记,进而达到解码速度提升的目的。我们同时推出了混合标签的监督策略,旨在减轻在模型蒸馏过程中可能出现的误差累积现象。
尽管前述方法实现了令人满意的加速效果,但我们进一步发现:在Jacobi解码过程中,仍有若干迭代步骤效率较低,这些步骤构成了提升整体效率的关键障碍。为了从根本上解决这一问题,本文提出了一种早期退出(early-exit)的解码策略,该策略通过适当放宽收敛标准,从而有效提高了平均推理效率。
实验数据明确显示,我们提出的技术在众多基准模型上实现了推理速度的显著提升,增幅超过四倍。同时,在模拟及实际机器人操作任务中,该方法也展现了出色的任务完成率。这些实验充分证明了本方法在提升机器人多模态决策效率及适用性方面的优越性,预示了其广阔的应用潜力。归纳起来,我们主要有以下三大创新成果:
我们研发了一种新型的加速策略,称为CEED-VLA,该策略在确保控制效果的同时,大幅提高了推理的效率。
我们采用了新型的一致性蒸馏技术,同时将混合标签的监督策略融入自回归损失计算中,旨在高效地保留动作序列中的高质量信息。
我们发现Jacobi解码在迭代过程中存在效率低下的障碍,因此我们提出了早期退出解码策略,这一策略成功实现了推理速度4.1倍的提升,同时解码频率也提高了超过4.3倍。
图 1:不同解码方法加速效果对比
Method
图 2:CEED-VLA 模型架构示意图
我们构建的框架首先利用预训练的VLA模型,如LLaVA-VLA和OpenVLA,通过Jacobi Decoding技术生成Jacobi Trajectory数据集。接着,我们研发了一种高效的一致性蒸馏策略,并引入了一种创新的混合标签监督机制,在确保模型精度的同时,提升了训练速度,进而对学模进行训练。最终,我们研发了Early-exit Decoding技术,旨在显著提高推理效率。通过模拟环境和现实世界的实验验证,我们发现,在确保任务成功率不受明显影响的情况下,这一技术明显加快了模型的推理速度,并大幅提升了灵巧任务的成功率。
Consistency Training
针对目标VLA模型,我们旨在捕捉Jacobi轨迹中的内在一致性,以便进行一致性训练。为此,我们首先在机器人数据集C上运用Jacobi Decoding技术对模型进行动作预测,以此收集完整的Jacobi轨迹。
一致性训练涉及两个关键优化目标:首先,一致性损失旨在促使模型在单次前向传播中准确预测多个token,其次,为确保模型在轨迹的每一步都能产出与最终目标相匹配的动作,我们引入了KL散度来衡量这一损失。概括来说,这一要求意味着模型需确保在各个预测阶段以及最终输出结果上保持连贯性,以此增强模型的收敛速度。
混合标签的自回归监督损失机制,即CEED-VLA,旨在维持模型在自回归生成方面的常规性能。为此,它综合运用了教师模型提供的数据和真实标签数据来进行监督,以此确保动作的准确性。在训练过程中,我们追求的是这两种损失函数的加权组合,作为最终的训练目标。具体训练步骤详述如下:
图4 一致性训练算法

Early-exit Decoding
图 5:四种解码方式迭代流程
Jacobi解码技术能够并行生成动作token,这在一定程度上提升了推理的速率。然而,它严格的收敛要求限制了解码效率的进一步增长。鉴于此,我们提出了一种名为Early-exit Decoding的策略,该策略使模型能够通过提前终止迭代的方式输出中间预测结果,从而无需遵循Jacobi迭代的收敛条件。得益于该任务结构上的特殊性,Early-exit Decoding技术显著提高了推理的效率,并且在成功率上保持稳定,从而使得模型能够以更快的频率对机器人进行控制,满足了实时任务执行的需求。
进行仿真环境下的基准测试实验
图 6:仿真环境主要实验结果
实验数据表明,在极具挑战性的长程任务CALVIN ABC-D和LIBERO-Long基准上,CEED-VLA在确保任务成功率不受显著影响的情况下,成功实现了推理速度和执行频率超过4倍的提升。
真实世界实验(Real World)
图 9:真机实验部署设置
图 10:叠毛巾任务上的对比
图中呈现了LLaVA-VLA模型的实际运行情况。该模型在机械臂操作上存在频率偏低的局限,这使得它难以胜任诸如叠毛巾这类需要灵巧性的任务,常常导致抓取失败或仅抓取到一边,进而造成任务无法顺利完成。相对比,下方的图片展示了CEED-VLA模型的实验成果。由于推理速度的提升,机械臂的动作变得更加流畅,成功实现了对灵巧操作任务的完成。
图 11:CEED-VLA 在真实世界中的实验结果。
CEED-VLA显著增强了推理的效率与调节的频率,这使得模型得以掌握并实施高频率的动作,因而相较于基准模型,在完成灵巧任务时的成功率显著提高,达到了70%以上。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.