从“能用”到“好用”!中国工程院院士郑纬民详解“主权AI”三大支柱,直指国产算力核心痛点

12月20日,摩尔线程首届MUSA开发者大会(MDC 2025)在北京中关村国际创新中心开幕。

在主论坛环节,中国工程院院士、清华大学计算机系教授郑纬民提出,在芯片产业全球化分工遭遇技术封锁的背景下,构建中国“主权AI”计算引擎成为紧迫任务。要实现“主权AI”,需从算力自主、算法自强、生态自立三方面入手。

从“主权AI”基建的角度出发,发展国产万卡/十万卡系统是不得不走的一步,但仍需解决互联网络与拓扑、可靠性与运维、能耗与供电散热等方面的问题。至于国产芯片厂商都要面对的终极问题——生态建设,在郑纬民看来,真正决定“主权AI”生态成败的,是有没有足够多的开发者愿意长期在这套栈上写代码。未来国产平台要提高用户的开发体验,还需解决迁移成本高、工具链不成熟、文档/社区与支持不足等问题。

郑纬民教授现场演讲 图片来源:每经记者 杨卉 摄

“主权AI”三大支柱:算力自主、算法自强、生态自立

过去很长一段时间,芯片产业一直处于全球化分工的状态,架构设计、制造装备、代工、封测等环节均涉及不同领域。然而,近年来高端AI芯片面临出口管制、技术封锁等困境,算力从一般生产要素上升为战略资源,“主权AI”也从学术讨论逐步变为每个国家必须回答的现实问题。

郑纬民认为,要实现“主权AI”,有三个支柱需要同步配备:算力自主、算法自强、生态自立。三者互为前提,相互约束,共同构成“主权AI”。

具体来看,算力自主是物理层的“安全底座”。郑纬民强调,所谓算力自主,是指自主可控的芯片与加速器、可持续的代工与供应链、可靠的机房以及电力与网络基础设施。最终目标是不被单一外部算力平台“卡脖子”,关键行业与基础设施能够在本土算力上运行。

要实现这一目标,则需做到三点:第一,芯片设计能力方面需有自主权,包括GPU(图形处理器)/加速器、架构设计指令集规划、片上互连与存储架构等;第二,制造与供应链风险要可控,即在现有全球产业格局下,通过多源代工、库存策略与本土化能力布局来降低断供风险;第三,系统与集群交付的能力要强,不仅能“造出卡”,还要能够稳定交付服务器与大规模集群,并具备持续运维与优化的能力。

“这三条做到了,才是算力自主。”郑纬民表示。

算法自强是指在国产算力上做“原生创新”。以GPU为例,需要其做到能针对大模型做适配,如支持Transformer、MoE等主流与前沿模型结构;能做大模型的训练,可支持千亿、万亿参数级别的预训练与多任务训练;能让模型进一步优化,在国产算力环境下探索更适配本地应用与数据特点的模型架构。

最后一个支柱是生态自立。在郑纬民看来,真正决定“主权AI”生态成败的,是是否有足够多的开发者愿意长期在这套栈上写代码,某种程度上,生态建设甚至比算力和算法更为重要。“不是说芯片上能跑一个软件就可以了,要(让用户)愿意用这个芯片。”

这就要求厂商以开发者为主来提供解决方案,要求其关键工具链、自研框架与驱动具备持续迭代的能力,而不是完全依赖单一的境外生态。

图片来源:每经记者 杨卉 摄

郑纬民强调,开发者才是生态的核心资源,平台的成败由开发者决定。因此,国产平台急需解决迁移成本高、工具链不成熟、文档/社区与支持不足等问题,尽可能兼容主流框架(如PyTorch、TensorFlow、PaddlePaddle等)与常见编程习惯(如CUDA风格),最终目标是实现从“能用”到“愿用”的根本性转变。

国产万卡集群:一场必须打赢的“算力攻坚战”

除了“主权AI”,郑纬民还提到了AI+3D+HPC架构建设的必要性。“我们物理AI与世界模型需要怎样的芯片?大概有三个方面内容:AI(大规模神经网络的训练与推理)、3D(高质量图形渲染与场景表示)、HPC(严格物理约束下的数值模拟与求解)。”

郑纬民强调,做GPU一定要满足三个要求,即能实现完整的图形流水线、可加强张量计算核心以支持主流框架、能提供高精度浮点单元用于科学计算。

值得关注的是,郑纬民还提到了算力资源从单卡到万卡集群的转变。他直言,从“主权AI”基建的角度出发,发展国产万卡/十万卡系统等于本土大模型与行业模型的“母机”与基座,是不得不走的一步。一方面,模型时代算力的基本单位已经是集群总算力,而不是单卡性能。另一方面,预训练超大规模模型、服务国民级推理需求都需要持续可用的万卡级训练集群。

不过,国产算力要做到万卡甚至十万卡的集群并不简单。从工程角度出发,据郑纬民介绍,互联网络与拓扑、可靠性与运维、能耗与供电散热都是需要解决的问题。

“十万卡怎么连起来?十万卡连在一块,平均一个小时要出一次错,出错了如何继续训练下去?十万卡是一个‘大火炉’,电要供得上,散热也要做得好。”在此背景下,郑纬民认为,国产集群第一步是先做到能用,然后才是好用。

图片来源:每经记者 杨卉 摄

在演讲最后,郑纬民提到了开源。在他看来,“后CUDA(英伟达生态)时代”,模型使用者已经是“使用开源项目”,而不是“使用CUDA”。因此,生态自立的一个现实路径就是让国产平台成为开源创新的一个选择。他指出,目前产业仍面临着内卷与碎片化问题,如不同厂家提供不同的接口,需要开发者做不同的适配。

“我们要团结一心,解决应用不足与生态薄弱的问题。产业界要团结起来,应用也要团结起来。我一直强调生态问题不是一个厂家的问题,开发者要发挥很大作用,一起努力解决这个问题。”郑纬民称。

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平