【CNMO科技消息】2026年4月24日,OpenAI在凌晨突然甩出GPT-5.5,API定价直接翻倍:输入5美元/百万token,输出30美元/百万token。12个小时后,DeepSeek发布V4系列预览版并同步开源MIT协议,全线标配100万token上下文,V4-Flash输出价仅为0.28美元/百万token——是GPT-5.5 Pro的1.55‰。

或许这是偶然撞车。但背后却是全球AI产业两条路线在同一时间的正面对撞。
跑分没惊喜,但技术底层打开了一条新路
从Benchmark看,V4的表现并没有让行业感到炸裂。
DeepSeek团队在技术报告中开诚布公地承认:V4-Pro-Max小幅超越当前领先的开源模型,高于GPT-5.2和Gemini-3.0-Pro,但仍落后于GPT-5.4和Gemini-3.1-Pro,差距大约在三到六个月。在国内,Kimi 2.6、GLM 5.1的整体表现也基本都在这条水准线以上。

如果只看跑分,曾经靠着V3和R1一枝独秀的DeepSeek,似乎也“泯然众人”了。
但这不是故事的全部。
在我看来,V4真正的价值不在那几行跑分数字上,而在于它重构了模型处理长上下文的底层方式。这比追平一两个百分点的评测成绩要深刻得多。
制约大模型上下文能力的核心瓶颈,是Transformer架构中注意力机制(Attention)的复杂度问题。换句话说,上下文越长,计算量呈二次方爆炸——这是所有做长文本模型的厂商迟早要撞上的墙。
在V4之前,行业主要通过压缩注意力的“宽度”(GQA)和“厚度”(MLA)来做文章。DeepSeek V3的核心技术MLA,本质上就是通过低秩映射把每个词压缩成更短的潜在向量。但问题在于,压缩之后100万个“速记符号”依然是100万个计算单位,模型还是得从头看到尾。
V4的做法是,开始动“长度”的刀——开创性地引入CSA/HCA混合稀疏注意力架构,在token维度上进行压缩,结合自研的DSA稀疏注意力,让模型在处理超长文本时不再对所有token做全量计算,而是区分轻重:强关联的核心内容精确读取,弱关联的背景信息大幅压缩,无关内容直接跳过。
这套机制的外部效果用两个数字就能说清:在百万token上下文场景下,V4-Pro的单token推理计算量只有V3.2的27%,KV缓存占用只有10%;V4-Flash更极端,分别压到了10%和7%。
简单说,处理同样100万字的文本,V4只需要上一代1/4的算力和1/10的显存。这不是靠堆显卡堆出来的,而是从注意力机制的数学基础上做了一次减法。
因此,我认为长上下文能力正在从“加价功能”变成下一代大模型的基础设施。 DeepSeek在这个问题上没有走修补老路,而是直接掀翻了传统的注意力范式。这种选择短期内看不到炸裂的跑分反馈,但它正在重塑大模型行业最重要的成本结构。在算力仍然紧缺、昂贵、短缺的现实里,谁能把长上下文的成本结构打散重建,谁就能在下半场的Agent竞争中拿到真正的主动权。
“涨价潮”里的反向清场:不是因为慷慨,而是因为成本真的被重构了
2026年3月以来,一个颇为魔幻的现象出现了:无论海外的OpenAI、Anthropic,还是国内的智谱、阿里、腾讯,AI产品与“降价”二字彻底绝缘。模型越做越大,API价格水涨船高,行业在一个月内形成了惊人的默契——AI就该越来越贵,想体验更好的智能,就得付更高的价格。
而DeepSeek V4 Pro的价格已经逼近国内AI产品的下限,Flash版本比旧模型还便宜。发布后48小时,官方又甩出一枚炸弹:Pro和Flash的输入缓存命中价格一步到位,打到原价的十分之一。其中,V4-Flash的缓存命中输入价降至0.02元/百万token,叠加限时优惠后更是低到几乎可以忽略不计。

OpenRouter平台的实时数据显示,V4-Flash的加权平均输出价仅为0.279美元/百万token。同一时期,GPT-5.5 Pro的输出价为180美元,Claude Opus系列和Gemini 3.1 Pro均在12-25美元区间。也就是说,使用V4处理相同规模的文本任务,成本可以降低超过99.8%。
当同行都在往“更贵更强”的方向走时,DeepSeek选择了反方向“清场”。
这背后不是烧钱换市场,而是一套从头重构的底层架构,把推理成本推向了人们从未想象过的数量级。技术报告里的一组数字解释了这一切:百万token场景下,V4的KV Cache占用只是前代V3.2的10%。十分之一的成本,源头就在这里。
华泰证券的判断也指向同一个结论:市场容易将V4理解为“降本压低算力需求”,但更重要的边际变化在于——长上下文成本下降后,复杂Agent、多文档分析、长周期任务、在线学习等场景的可用性被大幅提升,推理调用量与存储访问频次有望迎来新一轮扩张。
这是我看到最深层的行业信号:大模型的价格战,已经从“聊天便宜”进入了“Agent便宜”的时代。 过去两年,降价的核心逻辑是让用户用得起对话。但现在,Agent工作流需要模型处理超长上下文、执行多步推理、调用多种工具,token消耗量是简单对话的数十倍甚至上百倍。在这种场景下,哪怕输出价只差一两个数量级,意味着Agent能不能跑起来、跑不跑得动、跑不跑得起。
DeepSeek V4的定价策略,本质上不是在和同行打价格战。它是在为Agent时代的规模化落地,重新校准整个行业的成本基准线。
国产算力:从“备胎”到“关键变量”
V4这次发布还有一重藏在细节里的变化:DeepSeek首次在正式技术文档中将华为昇腾NPU与英伟达GPU并列写入硬件验证清单。
这是一个比很多人意识到的更为深远的信号。
据多位接近DeepSeek的消息人士透露,V4延期发布的真正原因,不是什么bug修不完,而是DeepSeek把整套系统从英伟达生态搬到了华为昇腾芯片上。这不是换一个驱动的轻量调整。DeepSeek R1当年对英伟达GPU的PTX底层做了极致优化,这是它“花小钱办大事”的核心竞争力。但转到华为昇腾之后,基于英伟达的所有工程积累全部作废,整套底层代码、调度逻辑、工程体系需要重写一遍。
难度在哪里?大模型参数达到万亿级别之后,算力压力从“纯计算”转向了“系统调度与通信”。DeepSeek V4虽然通过MoE架构降低了单次推理的计算量,但对内存带宽、芯片间互联、KV Cache管理的要求反而更高了。英伟达生态里,基于NVLink的单节点GPU间带宽可达TB/s级别,而昇腾在这些指标上有明显差距,更多依赖光模块进行跨节点扩展,会引入额外延迟和同步开销。在这种条件下把模型跑通、跑好,本身就是一项极其艰难的系统工程。
但从另一个角度看,这也意味着DeepSeek正在和国产算力深度捆绑。官方在定价说明中写道:“受限于高端算力,目前Pro版服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。”
这句话比很多技术参数更有信息量。它说明DeepSeek的低价,已经不再仅仅依赖于算法效率的提升,而是开始和国产算力的供给节奏绑定。
与此同时,寒武纪、摩尔线程等国产芯片厂商在发布当天就完成了Day 0适配。寒武纪已基于vLLM推理框架完成了V4-Flash和V4-Pro的适配,并将代码开源到GitHub社区。华泰证券指出,为支撑V4等模型的推理需求,预计新增AI加速卡11万至47万张,新增超节点283至1236台,国产算力芯片、超节点、交换芯片等环节有望加速放量。
这是中国AI产业首次将前沿模型的部署节奏与国产算力的规模化部署画上了等号。 在过去,国产算力更多扮演“备选方案”的角色——实在买不到英伟达显卡的时候才用。但到了V4这一代,这种关系正在反转。DeepSeek把未来降价的前提直接指向昇腾950超节点的规模化部署,意味着国产算力不再是“替补”,而是成为了通往更低成本AI的关键路径。
当然,必须保持清醒的是,这条路远没有走完。Pro版服务吞吐受限已经说明,当前国产算力在高端芯片供给上仍有明显的瓶颈,V4的商业化节奏实际上是被算力卡住了脖子。从算力可用到算力充足,还有相当长的路要走。但这种把弱点摊在桌面上的坦诚,反而比那些大谈算力储备的发布会更有说服力。
把4月24日的两场发布放在一起看,一个图景已经非常清晰:全球大模型正在走成两条截然不同的路。
美国阵营的核心逻辑是“探索边界”。OpenAI包下了英伟达今年一半以上的Blackwell芯片产能,用极致堆料的方式追求智力上限,定价策略是“越强越贵”,目标客户是能付得起高价的企业和高端开发者。Anthropic同样在这一路径上加速奔跑,Claude Opus 4.6在编程领域建立了事实上的开发者首选地位,但其API价格对中小团队来说仍然是一道不低的门槛。
中国阵营,以DeepSeek为代表,选择的是另一条路:在算力约束下追求极致效率,通过架构创新降低成本,用开源和低价把能力普惠出去,同时绑定国产算力生态,构建一套“独立于英伟达的可行性证明”。
这不是简单的战略差异,而是全球AI竞争格局的结构性分化。从OpenRouter平台数据来看,截至2026年4月,中国AI大模型已连续多周调用量超越美国,显示国产模型正在快速崛起。但23倍的资本投入差距只换来了2.7%的性能领先,也从另一个角度说明了中国AI在“效率”这条路径上的独特优势。
我的判断是:这两条路没有绝对的高下之分,但它们将塑造完全不同的产业生态。 美国路径的终局可能是少数巨头拥有最强模型,以高定价服务高端客户,赚取超额利润。中国路径的终局,则可能是通过极致效率和开源普惠,把AI变成各行各业的基础设施,让大量中小企业和独立开发者也能用上顶级能力。
这个判断有没有风险?当然有。一个必须正视的隐忧是:如果国产算力的规模化部署进度不及预期,DeepSeek的“低价普惠”叙事就可能遭遇瓶颈。另一个深层问题是,当模型能力不再由一家公司绝对领先,技术迭代的窗口期越来越短时,单纯依靠成本优势是否足以建立持久的护城河?英伟达CEO黄仁勋在今年CES上的一个判断仍然值得重视:开源大模型虽已触及技术前沿,但与顶尖闭源模型仍存在约6个月的代际差距。
写在最后:V4发布的意义,不在于它超越了谁,也不在于它的跑分有多高。它真正的意义在于,在行业集体走向涨价和高算力投入的惯性轨道上,DeepSeek用一份58页的技术报告和一组几乎刷新行业下限的价格,给出了一个“另一种解法是完全可行的”的证明。
