波士顿动力也搞端到端 AI 了!
这次升级,Atlas 不仅可以听懂自然语言指令,还可以自主规划动作和处理意外。
只见小哥故意合上盖子,机器人仍能识别并打开箱子。
故意挪动箱子位置,它也能精确识别到变化。
即使附近有遗漏的装置,它也能发现,并准确放入箱子内。
据介绍,此次更新由波士顿动力与丰田研究院联手推出,基于大型行为模型(LBM),带来了 Atlas 的全新版本 ——Atlas MTS。
新成果一出,网友们纷纷叫好,光是官方在 YouTube 发布的视频观看人数就突破十万,点赞超一万。
另有一批网友则欣慰的表示,膝盖可以弯曲了,那背部就不会受伤了。
哇哦,点赞数 2.4K 说明大家都很关心机器人身体健康嘛~
除此之外,关于全新能力具体实现,官方发布了详细报告。
给 Atlas 装上大脑
报告指出,端到端的语言条件策略能让机器人充分发挥自身优势,实现行走、精确放置双脚、蹲下、转移重心,同时避免自身碰撞。
这种策略构建过程分为以下 4 个步骤:
-
收集具身行为数据;
-
处理、标注和整理数据;
-
训练神经网络;
-
利用测试任务评估该策略。
更值得关注的是,此次大型行为模型采用 4.5 亿参数的扩散 Transformer 模型,并结合流匹配目标,能将包括 30Hz 图像、人体感觉和自然语言指令等输入信息转化为控制 Atlas 活动的动作指令。
说简单点,Transformer 像“全局之眼”,把控整体架构和动作细节的关联。扩散是细化步骤,将模糊指令转化为精准动作。流匹配损失则是真实参照,让动作既贴合现实,又能灵活适应不同场景。
在此过程中,波士顿动力关键的是将 Atlas 的模型预测控制器与 VR 界面结合,从而覆盖从手指级精细操作到全身伸展、移动等各类任务需求。
这使得远程操作员能够充分发挥机器人的性能,将自身动作和感知与机器人的状态保持同步。
除此之外,此次升级最值得关注的是,Atlas 能自主处理意外情况。
当出现问题时,比如零件掉在地上或箱盖未关闭,Atlas 都能智能地做出反应。
这简直就是给 Atlas 装上大脑!
不仅如此,官方还称只要是人能演示的动作,Atlas 都可以学习它,包括但不限于系绳子、折叠椅子和翻轮胎等。
不得不说,这学习能力真的惊到我了。
告别液压,电驱机器人更适合 AI
说起波士顿动力机器人,那不得不提一下 Atlas 液压版。
此版本在 2024 年 4 月已退役,且在 24 小时内发布全电动版本。
毕竟液压系统不仅成本高,响应慢,还难以与 AI 系统集成。
相比之下,电机驱动更精确、能耗低,且天然适配 AI 学习框架。
自波士顿动力转向电驱动以来,他们也是不断推出新动作。
去年 8 月,Atlas 在 RSS(机器人顶会)上大秀俯卧撑(当时还是没有手指的,也可以称为拳卧撑)。
动作那是相当标准~
过了两个月,它就可以进厂打工了,只需告诉 Atlas 前后搬运的位置坐标,它就能全自动分装物件。
而在今年 5 月份,波士顿动力再次升级,让机器人具备 3D 空间感知和实时物体追踪能力,可以自主执行更复杂的工业任务。
此次的大型行为模型(LBM),也意味着它正拥抱全新的技术方向。
看完液压转电驱的波士顿,再来了解一下国内一直采用电驱的宇树。
从四足机器狗 Go 系列,到人形机器人 H1、G1、R1,宇树始终延续着“小而美”的电驱哲学,用更快的迭代速度,逐渐在全球打响了名号。
现在,180“芭蕾舞者”都出来了。
未来,随着电驱技术与 AI 算法的不断融合,电驱机器人的时代才将真正到来。
参考链接:
-
[1]https://www.youtube.com/watch?v=HYwekersccY
-
[2]https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/?wchannelid=7qr7eifvi1
本文来自微信公众号:量子位(ID:QbitAI),作者:时令