《科创板日报》12月20日讯(记者 黄心怡)在今日举行的首届MUSA开发者大会上,摩尔线程发布新一代全功能GPU架构“花港”,以及基于“花港”架构的AI训推一体芯片“华山”和专攻高性能图形渲染的芯片“庐山”。
同时,摩尔线程正式推出了夸娥万卡智算集群,搭载自研“长江”智能SoC 芯片的AI算力本 MTT AIBOOK。

《科创板日报》记者在现场看到,当虹科技、中望软件等多家科创板上市公司与摩尔线程开展合作。其中,当虹科技BlackEye多模态空间大模型基于摩尔线程GPU,满足超高清直播实时转码、离线视频增强等等高性能需求;中控技术的时间序列大模型与摩尔线程的GPU完成了适配;中望软件与摩尔线程推出了全栈国产化三维CAD一体化解决方案,适配多种国产CPU与操作系统。
▍新一代GPU架构“花港”发布
摩尔线程创始人、董事长兼CEO张建中介绍,新发布的GPU架构“花港”, 基于新一代指令集,算力密度提升50%;支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持。集成新一代异步编程模型,优化任务调度与并行机制;通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展。

基于“花港”架构,摩尔线程公布了未来将发布的两款芯片技术路线:
“华山”专注AI训推一体与超大规模智能计算。集成新一代异步编程与全精度张量计算单元,支持从FP4至FP64的全精度计算,为万卡级智算集群提供算力支撑。

“庐山”专攻高性能图形渲染。在图形性能方面,AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍。集成AI生成式渲染、UniTE统一渲染架构及全新硬件光追引擎,为3A游戏、高端图形创作提供算力支持。
本次大会正式发布了夸娥万卡智算集群,浮点运算能力为10Exa-Flops,训练算力利用率(MFU)在Dense大模型上达60%,MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,与国际主流生态高度兼容。

摩尔线程公布了MTT C256超节点的架构规划。该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力,支撑下一代超大规模智算中心建设。

在具身智能方面,摩尔线程推出MT Lambda具身智能仿真训练平台,推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案,并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA,以助力机器人产业研发效率提升。
此外,摩尔线程发布会上还发布面向开发者的AI算力本 MTT AIBOOK,搭载自研“长江”智能SoC,提供高达50TOPS的端侧AI算力。同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube。
▍国产GPU芯片要实现生态自立
英伟达CUDA软件系统生态被业内普遍认为是其最大护城河,也是国产GPU厂商的薄弱之处。
中国工程院院士、清华大学计算机系教授郑纬民表示,国产GPU芯片要实现生态自立,实现从“能跑”到“愿意用。
“真正决定主权AI生态成败的,在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心资源,国产平台需要解决迁移成本太高、工具链不成熟,文档/社区与支持不足。实现从‘能用’到‘愿用’的根本性转变,关键在于开发体验。”
目前,摩尔线程对MUSA 软件架构升级到5.0版本,兼容 TileLang、Triton 等编程语言,核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率为97%,编译器性能提升3倍,并集成高性能算子库。后续,计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放底层能力。
摩尔线程创始人、董事长兼CEO张建中还透露,即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q,以及计算光刻库muLitho。
对于国产AI芯片软件生态存在的“内卷”与碎片化问题,郑纬民认为,多家厂商各自构建软件栈与接口标准,下游开发者需要为不同平台重复适配。同时,缺乏统一的加速器接口与部分关键组件的开源标准,实现互操作难度大。在生态资源有限的前提下,容易陷入低水平重复建设与“内卷”竞争。
郑纬民表示,应建立面向国产加速器的统一或高度兼容的接口标准,减少软件层的无谓分裂。通过产业联盟机制推动芯片厂商、框架团队、系统厂商与头部应用方开展联合优化。在关键基础软件比如通信库、编译器框架、异构调度系统等上形成共享的开放底座。
郑纬民呼吁,产业团结与协同对于缓解“应用不足、生态薄弱”尤为关键,只有当国产AI卡在真实业务中被大规模使用生态才会具备自我强化的正反馈。
▍“万卡甚至十万卡集群”是必选项
会上发布的摩尔线程新一代GPU架构“花港”,支持十万卡以上规模智算集群扩展。
郑纬民在演讲中提到, 从国产万卡至十万卡系统很难,但从主权AI基建角度,是不得不走的一步。因为模型时代的基本单位是集群总算力,不是单卡性能。预训练超大规模模型、服务国民级推理需求,需要持续可用的万卡级训练集群。
“目前在工程上的主要挑战在于,在没有专有封闭互连的情况下,基于以太网等通用网络实现 All-Reduce 与低延迟通信是关键难点。可靠性与运维有待提升,万卡集群单点故障是常态,需要断点续训、容错训练算法、自动化运维与监控。”郑纬民称。
在能耗与供电散热方面,十万卡规模对应的是百兆瓦级电力需求,需要机房、园区级综合设计。
郑纬民表示,国产集群实践表明,在“通用网络+自研通信库+软硬件”协同设计下,仍然可以构建“可用”的大规模系统,但需要长期持续的工程投入。
