【CNMO科技消息】2月12日,小米正式对外发布并开源首款机器人VLA大模型Xiaomi-Robotics-0。该模型拥有47亿参数,兼具视觉语言理解与高性能实时执行能力,可在消费级显卡上实现实时推理,一举破解传统VLA模型推理延迟的行业痛点,在具身智能领域刷新多项SOTA纪录。

据CNMO了解,现有VLA模型虽凭借大规模参数拥有出色的泛化能力,但庞大的推理延迟让机器人在真实物理世界中反应迟钝。小米此次推出的Xiaomi-Robotics-0从架构设计入手实现突破,其采用MoT混合架构打造“大脑 + 小脑”双核心体系,以多模态VLM大模型为视觉语言大脑,可理解人类模糊指令并捕捉高清视觉中的空间关系;同时嵌入多层DiT作为动作执行小脑,通过生成“动作块”结合流匹配技术,保障机器人动作的高频与精准,实现物理灵活性的大幅提升。

为兼顾模型的常识理解与实操能力,小米设计了跨模态预训练和后训练的两阶段训练体系。跨模态预训练通过Action Proposal机制对齐VLM特征与动作空间,再冻结VLM专注训练DiT,让模型在学会操作的同时保留物体检测、逻辑推理等能力;后训练则采用异步推理模式解决真机“动作断层”问题,搭配Clean Action Prefix和Λ-shape Attention Mask技术,既保证动作轨迹的连续流畅,又让模型更关注实时视觉反馈,提升对环境变化的响应能力。
目前,小米已正式开源该模型的技术主页、代码及模型权重,秉持开源理念推动具身智能技术的行业发展,同时小米机器人团队也开启人才招募,邀请行业人士共同探索物理智能的边界。
