【CNMO科技消息】近日,随着人工智能模型“龙虾”的热度持续攀升,开发者们在选择适配OpenClaw框架的最佳模型时,普遍面临一道难题:如何在成功率、速度和成本之间找到最佳平衡?对此,OpenClaw之父亲Peter Steinberger自支招,推荐关注一个名为PinchBench的专项榜单。

Peter Steinberger
据CNMO了解,PinchBench可被视为一份专为“龙虾”设计的“适配性指南”。它由专注于Agent基础设施的创业团队Kilo AI推出,旨在通过模拟真实工作流,而非传统的知识问答或数学推理,来评估全球各大模型对OpenClaw框架的执行能力。榜单从成功率、运行速度和推理价格三个核心维度进行实时排名,为开发者提供了清晰的选型依据。

值得注意的是,中国模型在成功率和速度维度上展现出强劲竞争力。在成功率排名中,谷歌的Gemini 3 Flash以95.1%的成绩位居榜首,紧随其后的第二名和第三名均来自中国:MiniMax的M2.1模型取得了93.6%的成功率,Kimi的K2.5模型则以93.4%的成功率位列第三。值得注意的是,取得佳绩的MiniMax M2.1并非其最新的M2.5版本。

在运行速度方面,国产模型的表现更为抢眼。MiniMax的最新一代模型M2.5超越了Gemini、Llama等国际知名模型,登顶速度榜。据介绍,M2.5在相关测试中的任务完成速度较前代提升了37%,其端到端运行时间已与Claude Opus 4.6持平。
然而,在价格维度上,国产模型目前仍面临挑战。榜单显示,最具价格优势的是OpenAI专为高性价比场景设计的GPT-5-nano模型,其输入和输出价格分别低至0.05美元和0.4美元每百万tokens。相比之下,国内模型中价格较优的MiniMax M2.1,折算后的成本约为GPT-5-nano的三倍。
目前,PinchBench已完全开源,开发者可以自行运行测试或添加新任务,为持续变化的“龙虾”模型生态提供动态的适配参考。
