寒武纪官方详解云端 AI 芯片思元 370：采用新一代智能处理器架构 MLUarch03

11 月 3 日消息，今天，寒武纪发布第三代云端 AI 芯片思元 370、基于思元 370 的两款加速卡 MLU370-S4 和 MLU370-X4。

同时，寒武纪全新升级了 Cambricon Neuware 软件栈，新增推理加速引擎 MagicMind，实现训推一体，显著提升了开发部署的效率，降低用户的学习成本、开发成本和运营成本。

寒武纪发布了新一代智能处理器架构 MLUarch03，拥有新一代张量运算单元，内置 Supercharger 模块大幅提升各类卷积效率；采用全新的多算子硬件融合技术，在软件融合的基础上大幅减少算子执行时间；片上通讯带宽是上一代 MLUarch02 的 2 倍、片上共享缓存容量最高是 MLUarch02 的 2.75 倍；推出全新 MLUv03 指令集，更完备，更高效且向前兼容。

▲ Supercharger 和多算子硬件融合技术

有 7nm 先进工艺和全新 MLUarch03 架构的加持，思元 370 芯片算力最高可达 256TOPS INT8)，是上一代产品思元 270 算力的 2 倍。相较于峰值算力的提升，思元 370 在实测性能和能效方面的表现更为优秀：以 ResNet-50 为例，MLU370-S4 加速卡（半高半长）实测性能为同尺寸主流 GPU 的 2 倍；MLU370-X4 加速卡（全高全长）实测性能与同尺寸主流 GPU 相当，能效则大幅领先。

▲ 7nm 先进工艺和全新 MLUarch03 架构加持，

思元 370 实测性能和实测能效超市场主流 GPU 产品

* 测试环境：

MLU370-S4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 数据：ResNet-50 来自于相关产品官网，Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。

思元 370 全面加强了 FP16、BF16 以及 FP32 的浮点算力，同时支持推理和训练任务。此外，思元 370 还是国内第一颗支持 LPDDR5 的云端 AI 芯片，内存带宽是上一代产品的 3 倍，访存能效达 GDDR6 的 1.5 倍。

▲ 寒武纪智能芯片架构演进

思元 370 采用 chiplet（芯粒）技术，在一颗芯片中封装 2 颗 AI 计算芯粒（MLU-Die），每一个 MLU-Die 具备独立的 AI 计算单元、内存、IO 以及 MLU-Fabric 控制和接口，通过 MLU-Fabric 保证两个 MLU-Die 间的高速通讯，可以通过不同 MLU-Die 组合规格多样化的产品，为用户提供适用不同场景的高性价比 AI 芯片。

▲ 思元 370 采用 chiplet 技术，可实现不同算力、内存和编解码器的组合

MLU-Fabric 是实现芯粒技术的关键所在。它为两个 MLU-Die 提供低功耗、低延时和超高带宽的互联，支持芯片上实现统一的内存获取和地址映射，创建虚拟通路避免进程死锁，支持数据校验错误发生时进行数据重传，保证数据准确性。

得益于芯粒技术，思元 370 可通过不同的组合为客户提供更多样化的产品选择，此次寒武纪发布了两款加速卡，未来还将推出更多基于思元 370 的产品。

MagicMind 是寒武纪全新打造的推理加速引擎，也是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自动后端代码生成及优化。在 MLU、GPU、CPU 训练好的算法模型上，借助 MagicMind，用户仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系列产品上，并获得颇具竞争力的性能。

MagicMind 的优势不仅在于可以提供极致的性能、可靠的精度以及简洁的编程接口，让用户能够专注于业务本身，无需理解芯片更多底层细节就可实现模型的快速高效部署，MagicMind 插件化的设计还可以满足在性能或功能上追求差异化竞争力的客户需求。

▲ 推理加速引擎 MagicMind 是寒武纪软件栈 Cambricon Neuware 全新升级的重要组成部分

为了加快用户端到端业务落地的速度，减少模型训练研发到模型部署之间的繁琐流程，寒武纪的统一基础软件平台 Cambricon Neuware 整合了训练和推理的全部底层软件栈，包括底层驱动、运行时库、算子库以及工具链等，将 MagicMind 和深度学习框架 Tensorflow，Pytorch 深度融合，实现训推一体。依托于训推一体，在寒武纪全系列计算平台上，从云端到边缘端，用户均可以无缝地完成从模型训练到推理部署的全部流程，进行灵活的训练推理业务混布和潮汐式的业务切换，可快速响应业务变化，提升算力利用率，降低运营成本。

在通用性方面，Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自适应精度训练等多种训练方式并提供灵活高效的训练工具，高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用，可满足用户对于算子覆盖率以及模型精度的需求。

全新推理加速引擎 MagicMind 和训推一体特性，将为用户带来更为便捷、高效的开发体验，大幅降低学习成本、开发成本和运营成本。

思元 370 升级了视频图像编解码单元，可提供更高效的视频处理能力和更优的编码质量，支持更复杂、更繁重、低延时要求的计算机视觉任务。

解码方面，思元 370 集成了强大的媒体性能，可支持 132 路 1080p 视频解码或 10 路 8K 视频解码。编码方面，全新编码器通过灵活的码率优化（RDO）控制、多参考帧、二次编码等特性组合，在相同图像质量（全高清视频 PSNR）的情况下比上一代产品节省 42% 带宽，有效降低带宽成本。

▲ 思元 370 视频编码质量显著提升

* 测试环境：

MLU270-S4：SYS-4029GP-TRT/2x IntelR) XeonR) Gold 6140 CPU @ 2.30GHz

MLU370-S4：NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz

视频内容：BQTerrace_1920x1080_60.yuv

寒武纪高在思元 370 芯片内置安全模块，切实保障用户信息安全。思元 370 是寒武纪第一颗支持国内外主流加密标准的云端芯片，支持用户数据、深度学习模型的加解密以及计算结果的加密输出，通过信任根的方式，保障 AI 芯片在启动及运行过程中加载的所有代码的安全性，还支持远程认证，用户可在业务运行过程中远程验证 AI 环境安全性。通过多方面的安全特性，思元 370 系列产品将更好地确保用户 AI 业务安全。

▲ 安全启动验证过程

此次发布中，两款基于思元 370 的加速卡正式亮相：高密度、半高半长、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全长、功耗 150W 的 MLU370-X4 智能加速卡。与上一代产品相比，370 系列加速卡在性能、能效方面都有更为卓越的表现。例如，对标准 ResNet-50v1 进行软件定制优化后，MLU370-X4 加速卡性能高达 30204fps。

▲ 寒武纪 MLU370-S4 加速卡

在 Cambricon Neuware SDK 上实测，在常用的 4 个深度学习网络模型上，MLU370-S4 加速卡的性能平均接近市场主流 70W GPU 的 2 倍。而在能效方面，MLU370-S4 优势更为明显，处理相同 AI 任务相较于 70W GPU 用电量减少 50% 以上，将有力地帮助用户实现“双碳”目标。

▲ 相比主流同尺寸 GPU 产品，

MLU370-S4 加速卡性能优势明显

* 测试环境：

MLU370-S4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 数据来自于相关产品官网。

MLU370-S4 加速卡在解码方面具有强劲竞争力，相较于同尺寸 GPU，可提供 3 倍的解码能力和 1.5 倍的编码能力。总体而言，MLU370-S4 加速卡的能效出色，体积小巧，可在服务器中实现高密度部署。

▲ 寒武纪 MLU370-X4 加速卡

MLU370-X4 加速卡的优势则表现为高性能，算力可达 256TOPS INT8)，加强了 FP16、FP32 的计算性能，新增 BF16 计算类型。

在 Cambricon Neuware SDK 上实测，常用的 4 个深度学习网络模型中，MLU370-X4 加速卡与市场主流 150W GPU 相比，性能表现 2 项持平 2 项更优，实测能效则为 GPU 的 2 倍。比如 YOLOv3 网络中，MLU370-X4 的性能是 150W GPU 性能的 1.5 倍，能效为 GPU 的 2.5 倍。