三年三代芯!徐直军罕见披露华为昇腾芯片演进路线图,以“超节点+集群”突破算力瓶颈

“算力的基础是芯片,而昇腾芯片是华为整个AI战略的基础。”9月18日,在“华为全联接大会2025”上,华为副董事长、轮值董事长徐直军罕见地披露了关于昇腾芯片的演进和目标。

徐直军介绍,昇腾芯片会持续演进。“未来三年,华为规划了三个系列的昇腾芯片,分别是950系列——包括950PR(2026年第一季度推出)和950DT(2026年第四季度推出)两颗芯片,960(2027年第四季度推出)系列,以及970系列(2028年第四季度推出)。”

从发布节奏来看,昇腾芯片将进入一个快速迭代和性能持续飙升的周期。不过,由于受限于先进制程的获取,华为单颗昇腾芯片的算力目前还难以直接与英伟达芯片竞争。为此,华为选择了一条不同的技术路径:通过“超节点+集群”的算力解决方案,将多颗芯片高效互联,以集成的方式满足持续增长的算力需求。

“由于美国制裁,我们不能产出最先进工艺制程的芯片,但我们基于过去三十多年构筑的联接技术能力,使得我们能够做到万卡级的超节点,经营万卡级的超节点,做到在世界上算力最强。”徐直军说道。

徐直军 图片来源:每经记者 王晶 摄

一年一迭代!华为披露昇腾芯片三年演进路线图

我们常听说华为的麒麟芯片主要用于手机(CPU),而昇腾芯片则专注于数据中心、服务器、AI训练平台等专业领域(NPU),其主要职责是高效处理海量数据,并执行人工智能模型的“训练”和“推理”任务。

2018年10月,华为正式发布首款采用华为自研达芬奇架构的AI芯片昇腾910与昇腾310。其中,昇腾310是SoC(系统级芯片)小芯片,和手机芯片差不多,只有指甲盖大小;昇腾910是大芯片,和手掌心差不多大,主要面向云端高性能计算。2019年昇腾芯片正式投入商用,华为还同步推出了昇腾AI计算架构,包括昇腾处理器、昇腾AI加速模块和昇腾AI开发环境,初步形成AI计算解决方案。

此后,由于众所周知的原因,华为昇腾鲜少披露昇腾芯片进度。如今,徐直军时隔六年再谈芯片进展。从规划上看,对于明年将落地的950系列,华为没有选择推出一颗“全能”芯片,而是计划推出两颗功能侧重点不同的芯片。

其中,昇腾950PR专攻“Prefill”性能(AI推理过程中的关键阶段),搭载自研HBM——HiBL 1.0,这是华为自研的高带宽内存技术,可以理解为给芯片修了一条更宽、更快的“数据高速公路”,处理Prefill这种需要吞吐大量数据的任务,高速内存至关重要。而950DT则注重提升推理Decode(解码)性能、训练性能,并提升内存容量和带宽。两颗芯片分工协作,效率更高。

徐直军称:“昇腾960在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比昇腾950翻倍,大幅度提升训练、推理等场景的性能,同时还支持华为自研的HiF4数据格式。这颗芯片将首先支持的产品形态是标卡和超节点服务器。昇腾970这颗芯片的一些规格还在讨论中。总体方向是,在各项指标上大幅度升级,全面升级训练和推理性能。目前的初步考虑是,相比昇腾960,其互联带宽等要全面翻倍,内存访问带宽至少增加1.5倍。”

可以看出,昇腾芯片将以几乎一年一代、算力翻倍的速度持续推进。

超节点+集群:以架构创新突破算力瓶颈

如果说芯片迭代是基础,那么超节点就是华为在算力战场上“以架构创新打破制程封锁”的战略支点。它不再依赖于单芯片性能的极限突破,而是通过系统工程方法,将成千上万颗芯片高效互联,形成一个逻辑统一的超级计算机,从而实现整体算力的跨越式增长。

今年,华为发布了业界规模最大的超节点,即昇腾384超节点。华为将384颗昇腾AI芯片连接在一起组成集群,通过全对等高速互联架构,基于系统工程方法,对计算、内存、通信的极致优化调度,可提供高达300PFLOPs的密集BF16算力,该性能表现接近英伟达GB200 NVL72系统的两倍。

“超节点在逻辑上是以一台机器学习、思考、推理。”徐直军说道。他还在大会上发布了更多的超节点和集成产品,比如Atlas 950 SuperPoD(基于昇腾950DT来打造)和Atlas 960 SuperPoD超节点,分别支持8192和15488张昇腾卡。

“Atlas950超节点至少在未来两年都将是全球最强算力的超节点,也是全球最强算力的单体单元计算机。相比英伟达同样在明年下半年上市的NVL144,Atlas950超节点卡的规模是它的56.8倍,总算力是它的6.7倍,内存容量是它的15倍,达到了1152TB。”徐直军说道。

而基于超节点,华为还发布了超节点集群,分别是Atlas 950 SuperCluster和 Atlas 960 SuperCluster,算力规模分别超过50万卡和达到百万卡。

不过,如何将数千甚至上万张芯片连接成一个高效的整体,是超节点技术面临的核心挑战,尤其是互联技术方面。

徐直军表示:“大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术都不能满足需求。另外,跨柜卡间互联带宽低,和超节点的需求差距达5倍。”

为此,华为通过系统性创新,在互联协议的物理层、数据链路层、网络层、传输层等都引入了高可靠机制,重新定义和设计了光器件、光模块和互联芯片,使光互联的可靠性提升百倍、且互联距离超过200米。同时,在大带宽与时延上,依靠多端口聚合与高密封装技术,以及平等架构和统一协议,实现了TB级的超大带宽,2.1微秒的超低时延。华为还在大会上发布了面向超节点的互联协议“灵衢”(UnifiedBus),可以把更多计算资源连接到一起。

这些技术上的突破令华为能够将万卡级芯片集成为一个整体,让超节点像“一台计算机”一样工作、学习、思考、推理。

“超节点已经重新定义了AI基础设施的范式。我们对于为人工智能的长期快速发展提供可持续且充裕的算力充满信心,也值得大家期待。”徐直军表示。

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平