11 月 5 日消息,微软当地时间 11 月 4 日宣布,其 Azure ND GB300 v6 虚拟机在运行 Meta 的 Llama2 70B 模型时,推理速度达到了每秒 110 万个 token。

注意到,微软首席执行官萨提亚・纳德拉(Satya Nadella)在 X 平台(原 Twitter)上表示:“这一行业纪录的实现,得益于我们与英伟达长期的联合创新,以及我们在生产级规模运行人工智能方面的专业能力。”

Azure ND GB300 虚拟机由英伟达 Blackwell Ultra GPU 提供动力,具体基于 NVIDIA GB300 NVL72 系统。该系统在单个机架级配置中集成了 72 颗 NVIDIA Blackwell Ultra GPU 和 36 颗 NVIDIA Grace CPU。
该虚拟机专门针对推理工作负载进行了优化,GPU 内存容量提升了 50%,热设计功耗(TDP)提高了 16%。
为验证性能提升,微软在单个 NVIDIA GB300 NVL72 域内的 18 个 ND GB300 v6 虚拟机上,分别运行了 MLPerf Inference v5.1 基准测试中的 Llama2 70B 模型(采用 FP4 精度),并使用 NVIDIA TensorRT-LLM 作为推理引擎。
微软表示:“单个 NVL72 机架的 Azure ND GB300 v6 虚拟机实现了总计每秒 1,100,000 个 token 的推理吞吐量。这刷新了 AI 推理领域的新纪录,超越了此前在同一 NVIDIA GB200 NVL72 机架上使用 ND GB200 v6 虚拟机所创下的每秒 865,000 个 token 的纪录。”
由于该系统包含 72 颗 Blackwell Ultra GPU,其性能大致相当于每颗 GPU 约 15,200 个 token / 秒。
微软已详细公开了本次测试的完整数据,包括全部日志文件和详尽的测试结果。该性能结果已由独立的性能验证与基准测试机构 Signal65 进行认证。


Signal65 实验室副总裁拉斯・费洛斯(Russ Fellows)在其博客中指出:“这一里程碑不仅在于率先突破了每秒百万 token 的大关,成为行业首次,更在于它是在一个专为满足现代企业动态使用需求和数据治理要求而设计的平台上实现的。”
Signal65 还补充道,与上一代 NVIDIA GB200 相比,Azure ND GB300 在推理性能上提升了 27%,而功耗仅增加了 17%。
“与 NVIDIA H100 世代相比,GB300 在机架级测试中实现了近 10 倍的推理性能提升,同时能效比提高了近 2.5 倍。”该公司进一步表示。
