2026.06.28 12:02

聊最强模型这事本身就挺搞笑的。现在这赛道卷到什么程度？你今天排完名，明天就有人发新版本把你脸打肿。但不排吧，老有人问。行，那就按2026年6月底的情况，综合Arena人类偏好、Intelligence Index、编码、Agent表现这些维度，聊聊我心目中的全球前十。 - （以下排名纯个人看法，别杠，杠就是你对。） 1：Claude Fable 5（Anthropic） Anthropic 6月9号放的Mythos级公开模型。目前Arena人类偏好榜稳坐第一，长时程Agent和复杂推理是真的猛。你要搞那种专家级任务，几小时的深度研究、多步骤自主Agent，这台目前是最靠谱的选择。有一说一，贵是真贵。 - 2：Claude Opus 4.8（Anthropic）觉得Fable 5太激进、不稳定？Opus 4.8就是那个"稳如老狗"的选项。编码、长上下文、复杂Agent工作流，表现极其可靠。很多专业开发者现在的主力机就是这台。怎么说呢，它可能不是每一项都拿第一，但综合可靠性和能力，依然是旗舰中的旗舰。 - 3：GPT-5.5（OpenAI） OpenAI目前最成熟的日常模型。通用能力均衡得一批，工具调用和生态就不用说了，ChatGPT那套东西太完整了。多模态体验也优秀，适合不想折腾、拿来就用的多数人。呃，但实话实说，硬核推理上已经被Anthropic拉开了。 - 4：Gemini 3.1 Pro（Google） Google目前的最强前沿模型。数学推理和多模态（图像、视频）这块是真的硬，研究分析类工作用它很舒服。但Agent能力嘛，还在追。适合需要高准确性的场景，不适合拿来搞花活。 - 5：Qwen3.7 Max（阿里）这是目前中国模型里综合最强的，全球前五没毛病。能力均衡、什么都能干，编程、长任务、日常使用都表现不错。最关键的是性价比杀疯了，价格只有前面那几个美系模型的几分之一。日常主力选它，钱包不疼。 - 6：Kimi K2.6（月之暗面） Moonshot的旗舰。超长上下文是它的杀手锏，多Agent协作也玩得转。你如果经常搞长文档总结、深度研究、复杂工作流，这台绝对是利器。短板？通用场景不如Qwen均衡。 - 7：GLM-5.2（智谱AI）智谱最新一代，编码和Agentic任务是真的有点东西。开源权重版本性能也强，适合自己折腾、做二次开发的玩家。 coding场景下甚至能跟Claude掰掰手腕，不开玩笑。 - 8：DeepSeek V4 Pro（深度求索）极致性价比的代名词。推理和编码能力接近前沿水平，但价格低到离谱。说白了就是"差不多够用，但便宜得要命"。社区里目前最受欢迎的高性能低成本选择，懂的都懂。 - 9：MiniMax M3（MiniMax）效率取向的选手，特定场景下性价比优秀。适合对速度和成本极度敏感的生产环境。不是最强，但该干的活都能干。 - 我的几点观察：美系闭源还是霸着前四，Anthropic和OpenAI目前确实在领先位置。但注意，差距在缩小，不是错觉。中国模型从第五名开始强势插入，Qwen3.7 Max是最均衡的代表。而且在性价比维度上，中国模型（Qwen、DeepSeek、Kimi、GLM）已经可以说是碾压了。很多实际场景能跑到前沿模型80-95%的效果，成本只要几分之一甚至几十分之一。这不叫卷属于降维打击。开源权重这块更不用说，中国模型目前明显领先。 - 如果你问我怎么选：追求极致、预算无限的话：Claude Fable 5 或者 Opus 4.8 。日常主力、讲究性价比：Qwen3.7 Max，闭眼入。重度编程/Agent开发：GLM-5.2 或 DeepSeek V4 Pro 。长文档和分析研究：Kimi K2.6。这个排行保质期时间很短。AI这行现在就是这个节奏，你今天看完明天可能就过时了。实际用起来别死磕一个模型，根据不同任务组合使用才是正道。你目前主力用的是哪个？评论区聊聊。

显示更多