杨植麟首次透露K3架构,从月之暗面到MiniMax,中国AI“开源派”打响全球突围战

北京时间11月11日凌晨,月之暗面创始人杨植麟与联合创始人周昕宇、吴育昕在知名论坛Reddit集体上线。在这个全球技术极客聚集地,三位首次同时露面,就上周发布的K2 Thinking模型开启了一场长达数小时的线上AMA(线上问答)。


图片来源:论坛截图

《每日经济新闻》记者了解到,在交流中,杨植麟不仅回应了关于训练成本、技术路线等方面的问题,还透露了下一代K3模型的研发方向。“KDA(Kimi Delta Attention,一种线性注意力模块)是我们最新的实验性架构,相关想法很可能会在K3中使用。”他表示,“我们希望在K3中融入重大的架构变革并开发新的能力。”

当被问及开源策略这一核心问题时,杨植麟的回答显得既理想化又坚定:“我们拥抱开源,因为我们相信AGI(通用人工智能)应该引导大家走向团结而不是分裂。”

这场线上对话在业界看来,展现了中国AI(人工智能)企业正以更加开放、成熟的姿态融入全球技术生态。此前的7月,美国知名编程器Cursor开始全面禁止来自中国的IP调用Claude等模型。受此影响,Kimi K2调用量一度大幅上升。

本次线上问答还透露了哪些技术路线?中国大模型厂商在全球赛道上有着怎样鲜明的分野?

K3计划引入重大架构变革

11月6日晚间,月之暗面旗下Kimi大模型发布了Kimi K2 Thinking,并称其为“Kimi迄今能力最强的开源思考模型”。

Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能体)”理念训练的新一代Thinking Agent,它原生掌握“边思考、边使用工具”的能力。

而Kimi K2 Thinking得到外界瞩目的原因在于其“能打”的实测成绩。据官方披露,Kimi K2 Thinking在“人类最后的考试”(Humanity’s Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到SOTA(当前技术水平的最前沿)水平。

在“人类最后的考试”测试中,Kimi K2 Thinking的得分为44.9%,作为对比,Kimi公布的同场测试中GPT-5(High)的成绩为41.7%。

同时,长思维链能力也成为K2 Thinking备受关注的焦点。据介绍,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。而实现这一能力并非一帆风顺。吴育昕在回答中坦言,支持“思考-工具-思考-工具”的交错执行模式是其中一大难点,这种模式在大语言模型(LLM)中仍属较新行为,需投入大量工程才能有效实现。

对于“如此长的推理链如何保持稳定性”这一疑问,杨植麟进一步阐释了技术实现路径:“我们采用端到端的智能体强化学习训练K2 Thinking,这使得模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都能保持良好的性能。”

值得一提的是,针对外界关心的训练成本传闻,杨植麟也首次做出澄清。

他表示,广为流传的“460万美元”并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

吴育昕透露,K2 Thinking是在配备了Infiniband的H800 GPU(图形处理器)集群上完成训练的。尽管在算力规模上不占优势,但团队“把每张显卡的性能都压榨到了极致”。

本次问答中下一代K3的蓝图也已初现轮廓。

杨植麟透露,团队正计划在K3中引入重大的架构变革。“从历史经验看,混合注意力机制在长序列任务中往往难以超越完全注意力机制。而我们在KDA架构上的实验表明,它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。因此,K3很可能会采纳相关的设计理念。”

除了架构革新,团队还透露正在开发视觉语言模型(VL)。并且在文本模型方面,Kimi曾尝试过1M上下文窗口,但因当时服务成本过高而未能推行。随着技术进步与成本优化,团队表示未来将重新考虑引入更长的上下文窗口。

中国开源应用生态正在形成

在全球AI竞赛中,国产大模型正凭借技术实力与开源策略,在国际舞台上赢得越来越多的关注与认可,同时也面临来自市场与地缘政治的挑战。

本次问答中,一位海外用户分享了他的两难处境:其公司虽然认可Kimi模型的出色能力,但因其为“中国大模型”,出于潜在风险考量,不敢在生产环境中部署。

对此,吴育昕回应,完全理解这类担忧。虽然“封禁”风险常常超出企业的控制范围,但开源模式正是化解此疑虑的有效途径——企业可以通过自行部署掌握控制权。他坦言:“我们期待一个更加互信的技术世界,但这需要时间。”

杨植麟则从更宏大的愿景出发:“我们拥抱开源,因为我们相信AGI应该要引导大家走向团结而不是分裂。”


吴育昕(上)和杨植麟(下)在论坛中的回复 图片来源:论坛截图

这种以开源构建信任、以技术连接世界的策略,正在复杂的国际环境中显现成效。

今年7月,当美国知名编程工具Cursor全面禁止中国IP调用Claude等模型后,市场迅速做出了选择。据平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升,与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token(大模型处理文本时的最小单位)。其API(应用程序编程接口)价格仅为Claude Sonnet的五分之一,展现出性价比的竞争力。

这样的增长势头并非孤例。10月27日,国内另一家AI独角兽MiniMax发布的开源文本模型M2,在权威测评榜Artificial Analysis中冲至全球总分前五、开源模型第一,实现了中国开源模型的历史性突破。更引人注目的是其成本效益:M2的综合成本低至每百万Tokens约0.53美元,约为Claude 4.5 Sonnet的8%,且推理速度近乎其两倍。

在技术路线上,国内头部模型公司已呈现出清晰的差异化发展路径:MiniMax M2主打极致性价比与高速推理,致力于构建丰富的多模态应用生态;而Kimi则持续专注将长文本处理和深度思考能力推向极致,探索大模型的能力上限。

面对与OpenAI等巨头的竞争,周昕宇幽默回应:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆・奥尔特曼本人知道。我们有属于自己的方式和节奏。”他强调,公司的核心使命始终是寻求从能源到智能的最佳转换,未来将继续专注于提升智能本身。

对于外界翘首以盼的下一代模型K3,杨植麟的回答充满期待:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”

Published by

风君子

独自遨游何稽首 揭天掀地慰生平