DeepSeek 一句话让国产芯片集体暴涨,背后的 UE8M0 FP8 到底是什么

DeepSeek V3.1 发布后,一则官方留言让整个 AI 圈都轰动了:

新的架构、下一代国产芯片,总共短短不到 20 个字,却蕴含了巨大信息量。

国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近 14%,总市值跃居科创板头名。

半导体 ETF,同样也是在半天的时间里大涨 5.89%。(不知道作为放出消息的 DeepSeek 背后公司幻方量化,有没有趁机炒一波【手动狗头】)

这个 UE8M0 FP8 到底是个啥?下一代国产芯片,又是指什么?

接踵而来的疑问,挤爆了人们的大脑。

在知乎上,也有不少大神开始边科普边分析自己对这件事的理解。

咱抱着学习心态,不妨就从 UE8M0 FP8 的概念开始说起。

什么是 UE8M0 FP8?

“UE8M0 FP8”这个概念,可以拆分成前后两个部分来解释,前面的 UE8M0,是 MXFP8 路径里的“缩放因子”

MXFP8 是 Open Compute Project 在 2023 年发布的《Microscaling (MX) Formats Specification v1.0》里定义的 8 bit 微缩块格式。

Open Compute Project 是 2011 年由 Facebook(现 Meta)联合英特尔、Rackspace 等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。

其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。

说回 MXFP8,它以 FP8 为基础建立,FP8 是把常规浮点格式压缩到 8 bit 的一种编码方式。

MXFP8 的核心思想是先把张量切成固定长度的“块”,然后为每个块单独指定一个 2 的整数次幂作为“缩放因子”,把块内所有数一起除以这个系数后再写成 FP8。

这种块级(而不是全张量级)的缩放,让 MXFP8 既保留了 8 bit 位宽,又把可用动态范围扩展了几十倍。

▲ 来源英伟达技术博客

而这里的“缩放因子”也是包含 8 个 bit,其中包含符号位、指数位和尾数位,开发者可以自行将这 8 个 bit 分配给这三种不同的位。

其中符号位只区分有无,若有则占一个 bit,无则不占用,而 UE8M0 中的 U 表示的就是无符号(有符号可表示为 S 或省略不写)。

E 和 M 则分别表示指数位和尾数位分配到的 bit 数,E8M0 指的就是 8 个 bit 全都分配给了指数位。

其他常用的格式还有 E4M3、E5M2(缩放引子外的本体部分也常采用这两种)等,它们均包含符号位,其余 7 个 bit 在指数和尾数位之间分配。

DeepSeek 之前开源的 5.6k 星标项目 FP8 GEMM 内核 DeepGEMM 就已经支持 UE8M0,不过这个项目主要是适配英伟达芯片和 CUDA 生态。

那么,采用这种全指数表示缩放因子的方式,有什么好处呢?

首先,由于 UE8M0 不含尾数与符号位,处理器在根据缩放因子对数据进行复原时,只需要乘以对应的 2 的幂,也就是移动一下指数位,而不需要浮点乘法、规格化或舍入逻辑,缩短了时钟关键路径。

并且 UE8M0 的动态范围覆盖 2^(−127) 到 2^128,其指数表可轻松容纳这一跨度,为后续块缩放提供充足空间。

另外 UE8M0 还能解决单尺度 FP8 无法同时顾及大 / 小值,导致溢出或被压成 0 的问题,将 UE8M0 作为分块的尺度后,错误率曲线从整张曲线下降到一条远低水平的横线,在保持 8 bit 张量精度的同时大幅减少信息损失。

▲ 来源英伟达技术博客

UE8M0 FP8 的好处我们了解了,现在可以解释为什么它更适配“下一代国产芯片”了。

大部分已量产的国产 AI 加速器仍沿用 FP16 / BF16 + INT8 的计算通路,并未集成 E4M3 / E5M2 这类完整的 FP8 乘加单元。

不过,摩尔线程 MUSA 3.1 GPU、芯原 VIP9000 NPU 等 2025 H2 首发的新款国产芯片已经在宣传资料里列出“原生 FP8”或“Block FP8”支持,并与 DeepSeek、华为等 15 家厂商联合验证 UE8M0 格式。

虽然下一代国产芯片虽然已经在为 FP8 做出准备,但 HBM / LPPDDR 带宽仍然与顶尖芯片存在较大差距。

而 UE8M0 让一组 32 个 FP8 数据只追加 8bit 缩放引子,相比传统的 4B(32bit) FP32 缩放直接节省 75% 的流量,这种空间节约措施被视作下一代架构的重要优化方向。

DeepSeek 为哪个国产芯片做了优化?

在搞清楚啥是 UE8M0 FP8 之后,回过神来的网友们又开始纷纷猜测:

DeepSeek 这是在说哪一家的国产芯片呢?

在官方有意卖关子的情况下,人们只好首先把目光放在了首批通过“DeepSeek 大模型适配”的 8 家厂商。

▲ 来源中国信通院官微

这当中大家看好的“头号种子选手”当属寒武纪,市场反应相当直观 ——

截至今日 10:25,寒武纪盘中大涨近 14%,总市值超 4940 亿元,超过中芯国际跃居科创板头名(实际以最新为准)。

理由也很简单,该公司旗下的 MLU370-S4、思元 590 及最新 690 系列芯片均支持 FP8 计算,在架构设计和低精度计算优化上一直相对比较领先。

而基于类似理由,海光、沐曦,中昊芯英甚至包括名单之外的摩尔线程等也都被网友们挨个点名:

  • 海光:其深算三号 DCU 支持 FP8 计算,存在进一步优化的空间;

  • 沐曦:今年 7 月发布的曦云 C600,也支持 FP8 精度计算;

  • 中昊芯英:其“刹那”TPU AI 芯片支持 FP8 精度;

  • 摩尔线程:作为国内极少数原生支持 FP8 的 GPU 厂商,旗舰产品 MTT S5000 支持 FP8 精度计算。

与此同时,一些很有可能“即将上车 FP8”的厂商也出现在了一众盘点名单中。

例如华为昇腾,虽然昇腾 910B 和 910C 暂不支持原生 FP8,但官方路线图已经写明“2025Q4 原生 FP8”,所以众人预计或将在 2026 年推出的 910D(可能的命名)很有可能是所谓的“下一代芯片”。

除了以上这些,还有一大串芯片厂商的名字出现在了讨论当中,堪称盛况空前。

虽然猜来猜去没有最终定论,但不妨碍市场给予热烈回应。根据最新消息,今日国产芯片概念集体高开,科创 50 大涨 3% 创近三年半新高,芯片产业链集体走强。

所以,大家为什么集体狂欢?这些国产芯片一旦支持 UE8M0 FP8 究竟意味着什么?

综合当前国内外各方说法来看,一切都可以用一句话来概括:

这代表了国产 AI 正走向软硬协同阶段,能够实质性减少对英伟达、AMD 等国外算力的依赖。

这里头的逻辑也很简单清晰,正是由于 UE8M0 FP8 精度格式所具备的上述优势(更小的带宽、更低的功耗、更高的吞吐),这意味着同样的硬件今后能跑更大的模型,所以国产芯片的“性价比”被大幅拉高了。

换句话说,这些国产芯片厂商将在竞争中更具优势,因此也就属于利好了。

从另一方面来看,DeepSeek 通过改动精度格式,相当于主动贴合国产芯片的最佳性能点,这种软硬协同的模式无疑是把国产芯片们拉进了一个统一的生态坐标系。

这就像当年的“Wintel 联盟”一样 —— 微软和英特尔通过深度技术绑定,筑起了个人计算机领域的生态护城河,只不过如今换成了 DeepSeek 和国产芯片厂商们。

One More Thing

事实上,官方在正文部分提到 UE8M0 FP8 的只有一句话:

需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。

而且位置相当“隐蔽”,藏在了一大段洋洋洒洒的功能更新介绍之后。

要不是官方特意在评论区补了一句,估计大家还没啥感觉。

所以你说它这个动作吧,不知道算无意还是刻意为之,总之是相当微妙了 (手动狗头)。

参考链接:

  • [1]https://www.zhihu.com/question/1941891000319580108

  • [2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069

  • [3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html

  • [4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/

本文来自微信公众号:量子位(ID:QbitAI),作者:克雷西、一水,原标题《DeepSeek 一句话让国产芯片集体暴涨!背后的 UE8M0 FP8 到底是个啥》

Published by

风君子

独自遨游何稽首 揭天掀地慰生平