小米开源首代机器人VLA大模型消费级显卡可实时推理

【CNMO科技消息】2月12日，小米正式对外发布并开源首款机器人VLA大模型Xiaomi-Robotics-0。该模型拥有47亿参数，兼具视觉语言理解与高性能实时执行能力，可在消费级显卡上实现实时推理，一举破解传统VLA模型推理延迟的行业痛点，在具身智能领域刷新多项SOTA纪录。

据CNMO了解，现有VLA模型虽凭借大规模参数拥有出色的泛化能力，但庞大的推理延迟让机器人在真实物理世界中反应迟钝。小米此次推出的Xiaomi-Robotics-0从架构设计入手实现突破，其采用MoT混合架构打造“大脑 + 小脑”双核心体系，以多模态VLM大模型为视觉语言大脑，可理解人类模糊指令并捕捉高清视觉中的空间关系；同时嵌入多层DiT作为动作执行小脑，通过生成“动作块”结合流匹配技术，保障机器人动作的高频与精准，实现物理灵活性的大幅提升。

小米开源首代机器人VLA大模型消费级显卡可实时推理

为兼顾模型的常识理解与实操能力，小米设计了跨模态预训练和后训练的两阶段训练体系。跨模态预训练通过Action Proposal机制对齐VLM特征与动作空间，再冻结VLM专注训练DiT，让模型在学会操作的同时保留物体检测、逻辑推理等能力；后训练则采用异步推理模式解决真机“动作断层”问题，搭配Clean Action Prefix和Λ-shape Attention Mask技术，既保证动作轨迹的连续流畅，又让模型更关注实时视觉反馈，提升对环境变化的响应能力。

目前，小米已正式开源该模型的技术主页、代码及模型权重，秉持开源理念推动具身智能技术的行业发展，同时小米机器人团队也开启人才招募，邀请行业人士共同探索物理智能的边界。

小米开源首代机器人VLA大模型消费级显卡可实时推理

Published by

风君子

近期文章

标签

书签