谷歌重塑物理 AI 智能体:赋予机器人“大脑和身体”,让其学会“先思考,后行动”

9 月 26 日消息,谷歌 DeepMind 团队昨日(9 月 25 日)发布博文,宣布推出 Gemini Robotics 1.5 与 Gemini Robotics-ER 1.5 两款专为物理世界设计的 AI 新模型,旨在打造能够感知、规划、思考并行动的物理智能体

援引博文介绍,这两款模型协同工作,致力于让通用型机器人能够更高效地解决现实世界中的复杂多步任务,新系统采用了一种创新的“大脑-身体”协作框架。

其中,Gemini Robotics-ER 1.5 模型扮演着“高层大脑”的角色,它精通物理环境中的规划与决策,拥有业界领先的空间理解能力。

例如,当机器人被要求“根据我所在地的规定,将这些物品分类到正确的垃圾箱”时,ER 1.5 会主动上网搜索本地垃圾分类指南,然后制定详细的执行计划。

随后,“大脑”会将计划分解为一步步的自然语言指令,传递给扮演“身体”角色的 Gemini Robotics 1.5 模型。

这是一个视觉-语言-行动(VLA)模型,它负责接收指令,并将其直接转化为机器人的具体运动指令。这一流程不仅实现了高效分工,还让机器人的行动逻辑更加清晰。

Gemini Robotics 1.5 的一项核心突破是具备“先思考后行动”的能力。在执行任务前,它能以自然语言生成一套内部推理与分析序列,从而更好地理解任务的深层语义。

而新模型打破了这一限制,它将在某个机器人(如 ALOHA 2)上学到的技能,成功迁移至外形和自由度完全不同的机器人(如 Apollo 人形机器人和 Franka 双臂机器人)上,无需针对新型号进行专门训练,从而极大地加速了新技能的学习和部署。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平