感谢网友 劍主、_小学生_ 的线索投递!
9 月 30 日消息,智谱今日发布了 GLM-4.6 旗舰文本模型,作为 GLM 系列的最新版本,GLM-4.6 是其最强的代码 Coding 模型(较 GLM-4.5 提升 27%)。
GLM-4.6 总参数量 355B,激活参数 32B。GLM-4.6 宣称在所有核心能力上均完成了对 GLM-4.5 的超越,具体如下:
-
高级编码能力:在公开基准与真实编程任务中,GLM-4.6 的代码能力对齐 Claude Sonnet 4,是国内已知的最好的 Coding 模型。
-
上下文长度:上下文窗口由 128K → 200K,适应更长的代码和智能体任务。
-
推理能力:推理能力提升,并支持在推理过程中调用工具。
-
搜索能力:增强了模型在工具调用和搜索智能体上的表现,在智能体框架中表现更好。
-
写作能力:在文风、可读性与角色扮演场景中更符合人类偏好。
-
多语言翻译:进一步增强跨语种任务的处理效果。
GLM-4.6 已上线智谱 MaaS 平台 bigmodel.cn,即将在 Hugging Face、ModelScope 开源,遵循 MIT 协议。
1. 综合评测
在 8 大基准:AIME 25、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench、GPQA 模型通用能力的评估中,GLM-4.6 在部分榜单表现对齐 Claude Sonnet 4 / Claude Sonnet 4.5,位居国产模型首位。
2. 真实编程评测
为了测试模型在实际编程任务中的能力,智谱在 Claude Code 环境下进行了 74 个真实场景编程任务测试。结果显示,GLM-4.6 实测超过 Claude Sonnet 4,超越其他国产模型。
在平均 token 消耗上,GLM-4.6 比 GLM-4.5 节省 30% 以上,为同类模型最低。
为确保透明性与可信度,智谱已公开全部测试题目与 Agent 轨迹,供业界验证与复现,附链接如下:
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
智谱还宣布,GLM-4.6 已在寒武纪国产芯片上实现 FP8+Int4 混合量化部署,这是首次在国产芯片投产的 FP8+Int4 模型芯片一体解决方案,在保持精度不变的前提下,大幅降低推理成本。
基于 vLLM 推理框架部署,摩尔线程新一代 GPU 可基于原生 FP8 精度稳定运行 GLM-4.6,印证了 MUSA 架构和全功能 GPU 在生态兼容与快速支持方面的优势。
GLM-4.6 和寒武纪、摩尔线程国产芯片的组合,即将通过智谱 MaaS 平台面向大众和企业提供服务。
随着 GLM-4.6 发布,智谱同步升级 GLM Coding Plan(最低 20 元包月畅玩套餐);同时推出 GLM Coding Plan 企业版套餐。
此前订阅 GLM Coding Plan 包月套餐的用户自动升级至 GLM-4.6,新增:
-
图像识别与搜索能力。
-
支持 Claude Code、Roo Code、Kilo Code、Cline 等 10 + 主流编程工具。
-
面向高频重度开发者提供 GLM Coding Max,是 Claude Max (20x) plan 三倍用量。