
今日,亚特兰大迎来了一场盛大的全球顶级会议——机器人和自动化领域的ICRA 2025,标志着该领域的盛会正式启幕。
近期,机器人界的一项重量级竞赛——ManiSkill-ViTac 2025已经揭晓了获奖者的阵容。
5月23日,ICRA 2025第六届ViTac国际研讨会上,ManiSkill-ViTac 2025的研究成果将进行集中展示。
主办方统计显示,本次赛事汇聚了来自清华大学、北京大学、香港大学、新加坡国立大学以及穆罕默德·本·扎耶德人工智能大学等全球42支顶级团队,共同展开了激烈的较量。
最终包揽三个赛道金牌的赢家,是来自国内的两家具身初创公司。
原力灵机Dexmal在「纯触觉操控」及「触觉传感器设计」两大领域均荣获了金牌。
这家成立时间不长便成功吸引2亿天使投资的潜力企业,其核心成员均来自知名AI公司旷视科技,且在AI原生产品的大规模应用方面拥有超过十年的实战经验。
石智航在夺得“视触融合操控”赛道冠军之后,几乎与原力灵机同步发布了天使轮融资的消息,该轮融资规模高达1.2亿美元,成功刷新了中国具身智能领域天使轮融资的最高纪录。
三大竞技领域,三枚奖牌,不仅彰显了具身智能在特定行业竞争之激烈,更昭示了我国在机器人操控技术方面的世界级优势。
机器人界「奥赛」
视触觉融合大挑战
在人工智能的发展脉络中,具身智能与AI 1.0阶段以及当前备受瞩目的大型语言模型(LLM)之间,存在着根本性的差异。
AI 1.0聚焦于模式识别,大模型擅长处理文本等多元信息。
具身智能直接面向物理世界,致力于实现机器人能够如同人类一般进行感知、思考和与环境进行互动。
这种“身体与智能”的融合,不仅对算法创新提出了要求,而且对硬件设计、环境适配以及多模态感知的紧密合作提出了更高标准。
此外,在评价准则方面,它既不像是AI 1.0时期产学研各方在CVPR会议上的激烈角逐,也不像是在OpenCompass、Eval等基准测试中,大模型领域内各路英豪的广泛讨论。
具身领域的基准相对稀缺分散,且挑战重重。
这项任务不仅要求对复杂的物理交互进行模拟,还需研发高精度硬件,并在实际环境中对算法的稳定性进行测试,因此,参与相关赛事的难度极大,参与者的数量也相对较少。
随着具身技术的不断进步与日益完善,行业内的竞争愈发白热化,与此同时,该技术各个细分领域的竞赛活动也呈现出日益高涨的态势。
目前,人们普遍对机器人运动方面的能力较为关注,诸如机械臂的灵活性或步态的敏捷性,然而,在具体应用场景中,视觉、触觉等多模态感知的整合对于机器人的进步显得尤为关键。
为了使机器人能够掌握与人类相似的操控技巧,ManiSkill基准测试便应运而生。
自2022年首届在ICLR上亮相以来,ManiSkill挑战赛已经成为了具身智能领域的知名品牌。到了2024年,该赛事更是推出了“视触觉融合”这一新专题(Vitac),旨在补充和完善那些以视觉为主导的传统方案。
机器人得以通过运动能力实现行动,正如近期广受欢迎的擎天柱热舞视频所展示的那样;同时,多模态感知能力则使其具备了“理解世界、辨识环境”的智能。
特别是在那些对操作要求极高的场合,视觉与触觉的相互配合对机器人的应用价值起到了决定性的作用。
然而,在许多现实场景中,它们的表现仍不如意。
在处理不规则物体、进行毫米级精度的作业,或者应对柔性材料时,机器人往往因为感知能力不足而导致操作失败。
在红杉资本的私密讲座上,英伟达资深研究员Jim Fan将此概念称为“物理图灵检验”。在演讲环节,他播放了一段机器人尝试为VIP客人准备早餐却意外出错的视频,场面一度引发满堂大笑。
一个再普通不过的生活场景,机器人为啥就搞得一团糟呢?
这主要是因为,目前机器人研究主要依托于视觉感知技术,借助摄像头来获取周围环境的数据,进而作出相应的决策。
然而,以视觉为主导的方案在应对密集场景时,明显存在一定的不足,诸如遮挡、光线波动以及物体透明度等因素,都可能对视觉信息的准确性造成干扰。
与此同时,那些未能获得触觉反馈的机器人,在感知接触力度、表面质感或物体硬度等关键信息方面,显得尤为困难。
这情形使得,在医疗手术、精密装配以及复杂物流分拣等领域,机器人难以实现与人类相当的操作水准。
ManiSkill-ViTac的视触觉融合挑战赛应运而生,恰如其分地填补了这一技术领域的空白。
主页地址:
清华、UCSD、伦敦国王学院等知名学府共同承办,该活动专注于研究视触觉融合技术,旨在拓宽机器人在执行复杂操作时的能力范围。
ManiSkill-ViTac与往届ManiSkill赛事有所区别,它不仅引入了触觉物理仿真平台,还构建了现实世界的测试环境,成为全球范围内首个将视觉与触觉相结合的公开竞赛活动。
ManiSkill-ViTac 2025的深远影响远不止于学术领域的竞赛,它实际上为机器人产业搭建了一座从实验环境过渡至实际应用的桥梁。
这将促进触觉与视觉融合算法的发展,加快对触觉传感器设计的优化,并设立标准以拓展接触操作任务的多样性。
在42支全球参赛团队中,中国团队的表现尤为亮眼。
原力灵机引领,不仅在算法研发领域实现了重大进展,而且通过“算法融合硬件、结合场景”的全方位创新,加速了技术的实际应用进程。
中国队夺三金
凭什么?
在纯触觉操作领域(Track 1)内,原力灵机Dexmal团队勇敢地迎向了机器人控制技术的核心挑战:
如何在完全没有视觉辅助的条件下,仅凭触觉完成高精度的操作?
依据资料,Track1项目规定机器人需运用触觉感应器,精确执行将轴部件植入至毫米级别细孔中的技术挑战。
这要求其对轴体轮廓的各个细节进行精确分析,同时根据接触反馈信息,建立起一个精确的空间坐标系统。
传统方法普遍采用强化学习,然而由于触觉信息的维度较低且噪声较大,其成功率仅有14.81%。此外,由于接触力不均衡,传感器往往承受过大的压力,导致其容易损坏。
为此,Dexmal团队精心打造了独特的“双范式学习架构”,巧妙融合了专业领域的知识以及智能化的学习方式。
他们首先借助专家提供的示范数据,对策略网络进行了预先训练,从而使机器人能够迅速习得空间探索的基本技能。
之后,该团队采纳了模拟学习的方法,构建了动态的奖励函数,以此对强化学习中的每一步具体操作给予精确且及时的指导与反馈。
这种分层次的递进学习模式,就好比给机器人配备了一对“隐形的眼睛”,即便在没有视觉辅助的严苛环境中,它也能精确地找到孔洞的具体位置。
这一方案的真实效果,令人震撼。
在仿真实验中,Dexmal算法的应用显著提高了成功率,其效果是单纯强化学习方案的2至3倍,表现尤为突出。
在真实机器人验证阶段,Dexmal方案以显著的优势得分,充分展现了它在纯粹触觉领域所拥有的强大竞争力。
在触觉传感器设计的竞赛领域(Track3),原力灵机Dexmal团队再度彰显了其技术的领先性。
触觉传感器,是机器人实现触觉功能的关键硬件设备,然而它长期遭遇成本高昂、生产过程繁复以及性能波动等挑战,整个行业目前仍处于初步探索阶段。
Dexmal团队致力于追求经济和效率的双重目标,对从传感器设计到数据处理的整个流程进行了全方位的优化升级。
他们首先对传感器的几何结构进行了优化,确保其能够适应不均匀的应力分布,从而能够灵活应对各种任务需求。
随后,该团队对四面体网格进行了改进,旨在实现计算精确度和实时性能的和谐统一。
最后,他们优化了标记点的分布,兼顾空间分辨率与信号鲁棒性。
为确保设计方案的实际效果,该团队对传感器的空间分辨能力、运算效能以及算法间的协作性进行了全方位的检验。
结果显示,新设计不仅让算法性能显著提升,还有效降低了成本。
该方案以其高性价比的特点,助力Dexmal团队在竞赛中脱颖而出,夺冠成功,或许预示着触觉传感器大规模应用的新篇章即将开启。
通往AGI
必须要翻越具身的高山
与语音、文本等模态有所区别,触觉信息直接来源于物理世界的本质数据。
它不仅对具身智能至关重要,更是实现AGI的关键一环。
触觉功能使机器人能够识别物理表面的纹理、感受到力的作用以及材料的特性,从而获取视觉所不能揭示的详细信息。
它使得机器人与真实世界的深入交流成为可能。此外,视觉信息还能助力于对整体环境的全面认知。
这种结合不仅增强了机器人对周围环境的感知稳定性,而且还为在不同场景和任务间实现广泛适用性打下了坚实的基础。
作为赛事主办方代表,清华大学助理研究员陈睿博士表示:
多感知模态融合在机器人技术中展现出巨大的应用潜力。我们组织此次竞赛的初衷,旨在为行业搭建一个交流平台,以共同促进视觉与触觉融合技术的创新发展。
在未来的规划中,我们打算提升任务的复杂度,例如,引入语言模式,并推动视觉、触觉与语言相结合的多模态大型模型的研究进程。同时,我们也期待更多杰出的团队能够加入这一领域。
相较于那如火如荼发展的LLM,机器人对物理世界的直接干预,构成了AGI发展中必须跨越的巨大障碍,同时也是攻克未来生产力挑战的关键所在。
只有将触觉视觉无缝融合,才能提升机器人精细操作的能力。
不久前,老黄在接受访问时透露,人形机器人产业预计将拥有高达50万亿美元的市值。目前,全球机器人市场正处在迅猛发展的前夕。
在未来的发展中,它将为工业、医疗、物流等行业带来智能化变革,提供前所未有的动力支持。
也就是说,在这一领域实现技术突破并成功应用,其带来的全球价值将难以估量。
中国队伍在比赛中的杰出表现,充分展现了他们在国际AI及机器人技术领域的领先地位。
Dexmal团队在夺得双金荣誉的同时,也透露他们近期参与了CVPR 2025协作智能Workshop的核心活动之一——RoboTwin,并且在首轮的仿真平台竞赛中,他们与另一支队伍共同荣获了第一名。
目前,他们正全力备战第二轮比赛,结果将于6月底公布。
这些连续取得的成就,无疑为中国在全球具身智能领域的地位,增添了更加鲜明的色彩。
ManiSkill-ViTac 2025正式画上句号,这不仅是一场技术领域的巅峰较量,更是标志着中国具身智能领域的崛起迈出了重要的一步。
原力灵机以及石智航的卓越表现,充分彰显了中国团队在算法研发、硬件创新以及应用场景实现方面的全方位实力。
他们凭借三枚金牌向全球展示:中国不仅是人工智能领域的追赶者,更是当之无愧的领跑者。
参考资料:
#Award
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.