热度空前但拒绝盲目乐观 具身智能业界:离“ChatGPT”时刻还远

过去一年,具身智能屡次被推向行业聚光灯中心。

一边是融资热潮涌动、演示视频刷屏出圈,机器人不断解锁更复杂的动作能力;另一边却是落地场景受限、稳定性欠佳,成本与安全性等核心问题仍未破局的现实困境。

虽然行业热度空前,但真正的问题也开始浮现:具身智能究竟处在怎样的技术阶段?它距离被广泛使用、被规模化部署还有多远?

在2月10日举办的原力灵机技术开放日上,围绕Physical AI Next(下一代物理AI)展开的圆桌讨论中,来自学术界、研究机构与产业一线的多位参与者并未急于给出乐观结论。

相反,“还远没有到具身智能的‘ChatGPT时刻’”几乎成为共识。无论是模型能力、硬件成熟度,还是数据、评测与标准体系,具身智能都仍处在高度未收敛的阶段。模型路线尚在分化,真机部署暴露出的系统性问题,比仿真环境中更加真实而复杂。


原力灵机技术开放日活动现场 图片来源:每经记者 可杨 摄

“还远没有到具身的‘ChatGPT时刻’”

具身智能正在经历一轮前所未有的关注度上升,但在热度背后,技术成熟度与产业现实之间的张力被反复提及。

北京智源人工智能研究院院长王仲远直言,当前具身智能特别火热,但火热背后也伴随着很多隐忧。他从硬件和模型两个层面拆解了这种不平衡:一方面,硬件能力的进步是肉眼可见的,机器人从“能走路”到“能跑起来”,再到“能干活”;另一方面,连续工作的稳定性、安全性以及电池等一系列问题仍未解决。

与此同时,王仲远也提到,当具身智能的模型和硬件真正部署到真机后,行业才意识到,“离我们真正希望的大规模应用还是有比较大的鸿沟”。

在模型层面,王仲远的判断同样谨慎。他指出,无论是分模块的“VLM(视觉语言模型)+控制”方案或端到端的VLA(视觉-语言-行为大模型)方案,还是当前研究热度很高的世界模型,整体仍处在探索阶段。

“我认为,现阶段还远远谈不上能自豪地宣称,具身智能已经迎来根本性突破。”在王仲远看来,更现实的路径或许并非一次性解决泛化问题,而是要在一个个真实的场景里,先把活干起来,累积更多的数据,形成数据闭环,最后再来解决泛化性的问题。

从硬件的视角,清华大学电子工程系长聘教授汪玉认为,当前机器人展示的能力大多仍局限在一个工作台上,而一旦任务被拉长,就需要大小脑配合;而一旦任务被放入真实空间,则需要跨模态工作,复杂度便急剧上升。

汪玉用从“叠一件衣服”到“收拾整个屋子”来举例。他指出,二者之间的难度跨越绝非仅停留在执行单一动作层面,后者需要感知整体环境、确立任务目标,进而持续完成跨模态、多步骤的复杂任务。

在这个问题上,汪玉并未将答案完全指向模型突破,而是提出了一个更底层的反问:如果未来机器人真的要进入人的生活空间,是否需要“这个屋子本身也要发生变化”?在他看来,当前物理环境完全是围绕人设计的,要求机器以100%的人类感知能力去感知和适应并不合理。借鉴车路协同的思路,通过基础设施、环境侧的改造,或许能为机器智能的持续进步提供另一条路径。

何为具身智能的“ChatGPT时刻”尚无共识

在追问变革是否已经到来之前,“什么才算具身智能的‘ChatGPT时刻’”依旧是行业分歧之一。

阶跃星辰创始人兼CEO(首席执行官)姜大昕从大模型产业本身的经验出发,强调这一时刻的核心标志在于实现零样本泛化,即模型面对以前没有见过的情况也能理解指令并完成任务。

“如果对比自然语言,我觉得具身智能的‘ChatGPT时刻’会更加困难一些。”姜大昕认为,具身智能的泛化并非单一维度,而是同时发生在场景、任务和目标等多个层面。不同维度的组合导致“我们究竟在哪个维度上定义‘ChatGPT时刻’,还没有形成共识”。

从技术角度看,姜大昕回顾了自然语言处理在Transformer(指模型架构)出现前后的路径分野。他认为,NLP(自然语言处理)之所以能够实现快速跃迁,关键在于它解决了自监督预训练的问题,从而能够压缩海量互联网知识,进而能够完成复杂任务。而在具身智能中,行业对视觉的编码方式和3D空间的推理机制等“非常根本性的问题”仍未形成统一认知。在他看来,行业可能需要等到这些问题有了新的突破才能真正跨越到“ChatGPT时刻”。

星海图创始人兼CEO高继扬则给出了一个更产业化的判断。他认为,具身智能与大语言模型在产业形态上存在本质差异:大模型的稀缺环节几乎只在模型本身,模型即产品,模型好了,整个商业化、产业化的链条也都具备了;具身智能的链条更长,零部件供应链尚不成熟、整机规模不足、渠道和终端高度线下化,这些都决定了算法并不能单独构成拐点。

在这样的前提下,高继扬更倾向于将具身智能的“ChatGPT时刻”理解为“在某些限定范围内具备商业价值的时刻”。他判断,随着整机、供应链、数据和模型在过去两年逐步补齐,2026年可能成为一个关键节点。

“2026年是形成‘应用闭环’的一年。2025年上半年,我们明显看到具身智能尚处于起步探索阶段;2025年下半年,其发展速度迎来显著提速。2026年有望成为具身智能技术的爆发之年,技术爆发将推动部分应用领域形成场景外溢效应,并与供应链、整机产品形成协同联动。”高继扬表示。

原力灵机联合创始人兼CEO唐文斌则进一步降低了这一时刻的门槛。在他看来,姜大昕所定义的“ChatGPT时刻”更接近于实现AGI目标(实现通用人工智能)。唐文斌更强调,具身智能的“ChatGPT时刻”,核心是要在限定场景中完成闭环、算清ROI(投资回报比),并实现规模化落地应用。“ChatGPT给我们带来最大的震撼是什么?我们曾经把它当成一个玩具,但是在那一刻(即ChatGPT时刻),我们认为它是一个工具,它变成一个可用的东西。”

在唐文斌看来,当机器人从玩具变成工具,这一刻便已经具备了“ChatGPT时刻”的意义。

真机评测、标准与规模化,成为行业共识的落脚点

如果说关于终极形态的判断仍然分散,那么行业对“接下来该做什么”这一问题则逐渐形成一条清晰的共识路径:真机、评测与标准。

唐文斌坦言,当前具身智能面临的并非单点能力不足,而是整个技术架构的缺失。“不管是数据还是硬件,我们今天在训练推理乃至整个链条上缺的东西非常多,评测也缺。”

在他看来,如果无法评测真实能力,模型就无法真正进化,现有的行业榜单规模有限。“(榜单上的)九十九点几分能代表当前真实的能力吗?显然不能,所以我们觉得非常需要来自物理世界、基于物理世界真实的、大规模的、真机的评测,才能够引导我们能够更好向前。”

高继扬也提到,具身智能未来也会形成垂类的概念,而垂类一定是来自真实需求,将这些真实需求落到真机的测评中,才能给企业及需求方一个公允的迭代环境。“很多时候AI还是实验科学,它有一定的原理、数学做支撑,但最终很多事还是要试出来,试这个东西就要有反馈,反馈就要有评测。”

汪玉则将这一评测体系与未来的开放生态联系起来。他认为,高频、可持续的真实世界评测,比低频的大型比赛更具推动力,而这一体系最终应当以更公益、更开放的方式存在,通过开源框架、硬件、数据和评测,形成对整个行业的基础支撑。

在展望2026年时,王仲远明确表示,相比模型能力的单点突破,他更期待在硬件、数据和模型输出等层面形成统一标准,从而降低验证和复现成本,推动生态协同。“现在不管是硬件的标准、数据的标准,包括模型输出的标准,整个生态非常碎片化。”

唐文斌则将目标聚焦在“一个场景、一千台、持续运行”这一极具操作性的指标上。在他看来,规模化并非通过场景叠加实现,而是在单一场景中跑通闭环,这才意味着具身智能真正迈过产业化门槛。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平