界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪
在大模型领域,谁能杀死比赛这个问题有了更多的解法。
11月19日,谷歌发布Gemini 3 Pro。在业界一片赞誉声之余,很快,埃隆·马斯克和山姆·奥特曼在推特平台上公开表达了对这套模型的认可。
团队将其描述为其迄今最先进的模型。从性能上看,Gemini 3目前以1501分登顶LMArena全球排行榜,是首个突破1500分的模型;在博士级推理benchmark(GPQA Diamond、MATH Apex、人类最后考试)中也实现了跃升。

图源:谷歌官网
DeepMind CEO Demis Hassabis强调,本次提升主要体现为更稳定的多步骤推理。这意味着模型能够处理复杂流程,如自动整理收件箱、按风格生成可运行的2D游戏代码等,不再依赖用户逐步给出指令。
一名应用开发者通过Gemini 3生成了一款Pokemon Go游戏,他对界面新闻记者描述道,生成的游戏不仅画面审美水平在线,并且竟然真的能玩还有背景乐,“太强了,谷歌要杀死比赛了。”

Gemini 3生成能力对比(图源:谷歌官网)
令人惊艳的Gemini 3让前一天发布的Grok 4.1以及前一周推出的GPT 5.1都隐隐有些尴尬。尤其是被认为长期处于引领地位的OpenAI。一名AI大模型实验室的研究人员对界面新闻记者评论道,“它在今年的表现平平,行业焦点再次又回到了谷歌的‘老派’技术。”
GPT 5.1甚至没激起多大水花。它不再强调跑分与榜单成绩,官方宣传重点从模型指标转向真实对话体验,突出更自然、更具情绪价值的交互能力。其个性化能力成为核心卖点,新增人设模板(专业、友好、书呆子、讽刺等)。
它分为Instant与Thinking两个子模型,分别面向日常对话与复杂推理场景。其中,Instant遵循指令能力提升,尤其在语气、格式、风格类要求上更可靠,同时采用自适应推理(adaptive reasoning),能按问题难度自动决定思考量。
Thinking主推深度推理,处理复杂问题时的结构化表达更强,减少专业术语,让解释更可读,同时让简单问题更快,复杂问题允许更长推理链。
抛开性能竞争角度,谷歌和OpenAI的动作都显示了同一个信号,即大模型竞争正在比拼进入产品化深水区。
例如,OpenAI在个性化上主动迈出一大步,通过风格模板与可调节人格参数,ChatGPT更接近产品而非工具,提升用户粘性的同时,也进一步增强平台锁定效应。
而不同于以往的模型升级,Gemini 3在发布当天便同步进入了谷歌的核心产品体系,包括搜索的AI Mode、Gemini App、Android系统以及企业智能体平台Antigravity。至此,谷歌得以将推理、多模态理解与智能体能力整合为一个完整平台。这使得谷歌在大模型领域的生态定位开始变得更加清晰。
谷歌从一开始的看似颓势已经完全扭转了局面,几乎是从Gemini 2.5起,从模型层到产品层,它为这片领域曾经势头最猛的OpenAI带来了前所未有的压力。事实上,今年在全球范围内颇为出圈的两大AI应用产品Sora 2和NanoBanana,也是来自这两家公司。
一名AI领域投资人对界面新闻记者表示,在OpenAI风头正盛时,他就更看好谷歌的长期表现,因为谷歌当前有一个其他竞争对手都难以复制的全栈体系——从芯片到数据再到终端产品的布局,足以构成谷歌独有的竞争壁垒。
在AI Infra层面,谷歌自研TPU让其具备大规模部署能力,算力成本也更加可控;数据方面,从C端(用户)到B端(企业),搜索、Gmail、YouTube与Android等提供持续反馈与训练数据,使其模型可在真实使用场景中不断优化;应用层面,依托谷歌产品体系,Gemini 3可能是第一个在发布当天就触达数十亿用户的大模型。
“还有一个很现实的较量是,对于谷歌来讲,它如果想要成本减半,可能每一层稍微便宜一点,加在一起就可以达成;但是对于Open AI,它只能把模型层的价格和成本往下砍,才可以跟人家对标,这是很难做到的。”这位投资人表示。
在美国大模型技术领域,谷歌、OpenAI、Anthropic、xAI以及Meta构成的第一军团,其市场格局正在日益激烈的竞争中逐渐清晰。
不过,在中国大模型领域,行业还未能形成非常稳定的格局:大厂开始进一步从产品端发力,创业公司也还未放弃通过模型占领绝对高地,一切都还未成定数。
