“龙虾”火爆出圈、机器人跳舞打拳刷屏、数字人直播带货“如假包换”,随着AI技术的加速迭代,整个行业也来到了寻找场景落地的关键期。如何实现成本、效率、性能的平衡,以及如何打通产业落地的“最后一公里”,这些难题都需要更多的“参考答案”。
3月24日,京东公布了部分AI研发应用的阶段性进展,包括开源大模型JoyAI-LLM Flash、推出自家“龙虾”产品组合,以及率先推出“自由态数字人”等。
就“龙虾”这一话题,京东集团相关技术负责人在接受《每日经济新闻》记者(以下简称“每经记者”)采访时表示,“龙虾”这个放大器的作用肯定在今年还会持续,预计到今年底或明年此时,我们有望看到L4级模型问世;届时,许多大家现在想象不到的应用方式将百花齐放。
而在数字人技术研发方面,京东JoyStreamer推出“自由态数字人”,相对传统数字人拥有更自然灵动的交互形态。每经记者在现场观看数字人“吃播”示例时,明显能够感觉到其在动作、姿态等都更加流程自然,即使脸部遮挡也能保持高保真质感。
字节与阿里密集打响AI竞赛,国内科技大厂的角力场几乎完全转向技术落地深度与生态协同广度的全面较量。京东的“AI解法”另辟蹊径,全方位对准产业端,能否后来居上?
谈“龙虾”竞赛:能不能赶上Agentic模型,窗口期就只有一年
“龙虾”智能体以及背后的“Token(词元)经济”成了近来科技圈关注的焦点。
相较于推出自家“龙虾”产品,京东云选择基于JoyAI大模型,通过开源OpenClaw架构推出轻量云主机一键部署、一体机等产品形态。
该技术负责人告诉记者,很多人看到的是“龙虾”,我们看到的其实是模型。
两年前,OpenAI给大模型定义了5个Level(等级),第一级是Conversation(对话),第二级是Reasoning(推理),第三级是Agentic AI,即AI达到了一个整体系统,在系统中自主采取行为解决问题。第四级为Innovation(创新)阶段,处于该阶段的系统不再依赖人工干预,且具备自主的创新思维。最后一级为Organization(组织),即达到或超越人类水平,能够提升工作中的效率。
在问及现在的“龙虾”与去年的Manus(全球首款通用AI智能体)有何不同时,该技术负责人指出,核心问题仍在于基础模型的能力。去年的基模能力刚刚突破第二级,即便是去年爆火的DeepSeek,也仅处于Reasoning(推理)层级,其模型层面尚未具备Agentic(自主代理)特性。
该技术负责人补充说:“而做Agent其实需要大量的工程、策略、流程,最终把它‘包’起来。去年底今年初的ClawCode模型,在模型层面就突破了L3级,真正来到了Agentic层面了。”
在技术路线层面,该技术负责人则认为,可能很快就会看到大模型进入下一个Innovation层级,即模型本身具有创作能力。“这个创作不是简单的创作一段话或者一首歌,而是真的在一些高难度的,需要人类充分发挥智慧的地方,AI去替代。当然现在还没有发生,可能一年内就会发生,但这个技术路线是确定的。”他进一步解释。
他还判断,AGI在软件模型这一块,可能就这一两年的时间,快的话可能今年年底就会见分晓。能不能赶上这一波Agentic模型,再赶上Innovation模型,对于一家公司来说,窗口期可能就一年的时间。
“不过,‘龙虾’这个放大器的作用在今年还会持续,L4级别的模型出来,那时候又会有很多大家现在想象不到的应用方式百花齐放。”该技术负责人表示。
首发“自由态数字人”,但规模化应用仍为当前探索目标
在观看京东数字人JoyStreamer技术进展时,每经记者注意到,目前数字人行业三大技术痛点正被逐一解决,包括音视频不同步、多模态控制不协调、长视频身份失真。
除了常规披露技术路线外,京东数字人JoyStreamer率先推出“自由态数字人”。其支持人物自然走动与灵活摆姿,具备镜头跟随及流畅出画入画的能力,且在脸部遮挡场景下也能保持高保真质感。
数字人技术的提升是否意味着行业离数字人规模化应用更进一步?京东数字人相关负责人告诉记者,规模应用最大的挑战在于,减少商家端的实际操作,不要对其生成有太多依赖条件。比如,原来30分钟拍摄素材,到3分钟再到单张图片。
“去年我们推出的复刻模式是,其历史直播过的素材都可以用来做数字人直播的生成。”他表示。
每经记者了解到,在解决数字人规模应用的问题上,Agent(智能体)技术产品的出现也带来了一些利好。该负责人举例称,目前会通过Agent打通目前已在平台上录入的海量信息,包括商品本身、优惠活动等问题。一来是可以准确、高质量地回答用户问题,二来是可以减少对商家的依赖,这使得该方案适用于数字人的大规模推广。
数字人在应用过程中的实际收效如何?每经记者从京东方面了解到,直播间的转化是毫无疑问的最终业务指标。但也会看过程指标,比如,用户在直播间停留时长是多少,用户在直播间里的交互轮数是多少,以及如何反映用户对商品的潜在需求等。
具身智能产业为何需要数据中心?
具身智能从去年爆火到今年热度依然不减。3月以来,具身智能赛道多笔大额融资落定。此外,3月20日,上交所受理宇树科技科创板IPO申请,预计募资规模42.02亿元,有望成为A股“人形机器人第一股”。
京东去年在具身智能领域罕见地完成了“六连投”,且近年来多次发布机器人产业计划。前几日的中国发展高层论坛2026年年会上,京东集团CEO许冉透露,京东正在建设全球规模最大、场景最全的具身智能数据中心。
目前具身智能领域的一大痛点,就是真实场景数据匮乏,导致模型训练不足,进而影响产业落地。“在两年内我们将积累超过1000万小时的真实场景数据,覆盖物流、家庭、城市等五大场景。”许冉称。
对于该项目的进展,京东相关负责人在此次采访中透露,数据采集过程中,京东将发动内部超过10万名各类职业员工,以及外部最多50万各行业人员,其中在宿迁就将发动超10万市民,开展“人类规模最大的数据采集行动”。
每经记者了解到,该项目具体落地执行周期为,未来一年内,积累500万小时人类真实场景视频数据,两年内将超1000万小时,并同步采集100万小时机器人本体数据。
京东具身智能业务相关负责人告诉记者,刚开始大家都关注机器人的硬控和VLA双臂或者灵巧手的操作,让机器人表现得像人,能听懂人话并按人的想法反馈,这叫‘言行一致’。目前市面上大部分做机器人和机器狗的公司都已经涉及了这一领域,但这只是其中的一部分(功能/阶段)。
“除此之外,我们京东探索研究院的老师们还在做VLN无阻导航(视觉语言导航)这一块,并将其集成到我们的JoyInside里,去结合不同的机器人和机器狗,做更多人机交互的工作。”该负责人补充说。
