从去年的蹒跚学步,到如今能够完成连续翻跟斗、跳舞、打拳击甚至拖动汽车等动作,具身智能的发展速度似乎正在超越人们的想象。然而,在这些炫目的演示背后,行业是否真的来到了爆发的前夜?
11月20日,智源研究院院长王仲远在接受包括《每日经济新闻》记者(以下简称“每经记者”)在内的媒体采访时表示,当前具身智能面临两大核心痛点:高质量数据的极度匮乏,以及商业化落地中伪需求带来的泡沫风险。在他看来,具身智能距离真正的“ChatGPT时刻”尚有距离,未来两三年内,机器人不会在家庭场景中“满街跑”。
谈数据困境:几十万小时的数据依然不能叫“海量”
过去七十年的人工智能发展史上,每一次重要跃迁都由数据、算力和模型规模三者叠加推动。具身智能也不例外。“数据,尤其是高质量的数据,决定模型能力的上限。”王仲远对每经记者表示。
要让机器人具备像人类一样理解物理世界并进行决策的大脑,现有的数据路径面临巨大挑战,具身智能的数据难题在于行业缺乏海量的真机采集数据。
针对行业热议的真机数据与仿真数据,王仲远认为,即便是拥有几万台机器人日夜不停地采集数据,在现阶段依然难以称之为海量。他表示,如果某一天,全球有上亿台机器人每天在真实环境中产生动作、触觉、决策等全模态数据,那将会是具身智能的“ChatGPT时刻”。但显然,距离那一天还非常遥远。
几十万小时的仿真数据,远未达到引发智能涌现的量级。“即使是几十万小时的数据,依然不能叫海量数据,所以还远没有到具身ChatGPT的时刻。”
在此背景下,王仲远认为,以视频作为主数据源是最佳路径。“视频数据是最符合第一性原理、能够规模化获取的。”他解释。相比真实机器人采集的动作数据,视频天然包含时间、空间、因果、意图、图像、文本,甚至可以拓展到声音、3D信息,是少数能够在现阶段做到大规模的数据类型。
通过学习海量的互联网视频数据,模型可以建立起对物理世界运行规律的基础认知。“我们在Emu系列原生多模态大模型的研发中发现,视频数据可以作为一个基座。模型不需要刻意为特定机器人本体训练调优,因为它学到了通用的物理常识。”
“行业里普遍的共识是数据非常重要。更具体地来讲,高质量且规模化的数据是非常重要的。”但王仲远同时也表示,行业不能忽略数据是否真正能形成“飞轮”。他强调,数据必须最终回到模型与场景,而不是为了堆数据而堆数据。
对此,王仲远给出的标准是,数据必须训练出具备泛化能力的模型;模型必须能支持真正有商业价值的场景。
谈商业化:警惕伪需求带来的量产泡沫
尽管具身智能还在继续加速跑,但商业化落地的考验已经来到眼前。
2025年被不少业内人士称为人形机器人的量产元年,部分企业甚至宣称出货量已过万台。王仲远表示,这显然是一个好现象,万台的出货量是硬件打磨的重要开端。
不过,面对这一热潮,王仲远直言,当前的硬件稳定性依然是制约商业化的重要因素。
“我们自己买了10台某款机器人,在一两个月内就坏了5台。”王仲远分享了一个真实的案例,在实验室里,许多机械臂在长时间运行后会出现过热保护,甚至需要在一旁架设电风扇降温,仿佛需要找一个“保姆”来照顾机器人。
“这就意味着很多硬件还没有到真正可用的阶段。量产能够在规模化的过程中不断打磨,从而解决硬件使用的时长、稳定性、安全性等问题。所以我也希望有更多硬件能够实现量产,企业规模能够不断扩大。”王仲远表示。
与此同时,王仲远提醒,行业需要分辨这种量产是由真实的商业需求驱动,还是仅仅由政策补贴和投资热度催生的伪需求。
王仲远认为,如果是由示范项目带来的一次性小需求,可能撑不起持续的量产。一旦落地效果达不到预期,采购方会暂停购买,行业便可能进入低谷。但他也强调,从更长的周期看,他对具身智能依然乐观。硬件一定要先达到可用,再到好用;量产一定要由真实需求驱动。这是产业走向成熟的唯一路径。
基于对硬件现状和市场逻辑的判断,王仲远给出了一个明确的预期:未来两三年内,具身智能最大的确定性是“机器人不会进入家庭‘满街跑’”。
他认为,家庭场景的复杂度、非结构化特征以及对成本的高度敏感,决定了它是最难攻克的高地。人形机器人要进入家庭,可能需要5到10年的技术沉淀。相比之下,工业场景中的专用机器人,或者具备一定泛化能力的特种机器人,将更快实现落地。
对于具身智能产业而言,数据与商业化落地仿佛已经互为掣肘。“如果有一天,机器人数量越来越多,产生了海量机器人与真实世界交互的数据,这些数据能够被企业广泛用来训练,也许能催生真正意义上的具备强大泛化能力的通用具身基础模型。”
