聊最强模型这事本身就挺搞笑的。现在这赛道卷到什么程度?你今天排完名,明天就有人发新版本把你脸打肿。但不排吧,老有人问。
行,那就按2026年6月底的情况,综合Arena人类偏好、Intelligence Index、编码、Agent表现这些维度,聊聊我心目中的全球前十。
-
(以下排名纯个人看法,别杠,杠就是你对。)
1:Claude Fable 5(Anthropic)
Anthropic 6月9号放的Mythos级公开模型。目前Arena人类偏好榜稳坐第一,长时程Agent和复杂推理是真的猛。
你要搞那种专家级任务,几小时的深度研究、多步骤自主Agent,这台目前是最靠谱的选择。有一说一,贵是真贵。
-
2:Claude Opus 4.8(Anthropic)
觉得Fable 5太激进、不稳定?Opus 4.8就是那个"稳如老狗"的选项。
编码、长上下文、复杂Agent工作流,表现极其可靠。很多专业开发者现在的主力机就是这台。
怎么说呢,它可能不是每一项都拿第一,但综合可靠性和能力,依然是旗舰中的旗舰。
-
3:GPT-5.5(OpenAI)
OpenAI目前最成熟的日常模型。通用能力均衡得一批,工具调用和生态就不用说了,ChatGPT那套东西太完整了。
多模态体验也优秀,适合不想折腾、拿来就用的多数人。呃,但实话实说,硬核推理上已经被Anthropic拉开了。
-
4:Gemini 3.1 Pro(Google)
Google目前的最强前沿模型。数学推理和多模态(图像、视频)这块是真的硬,研究分析类工作用它很舒服。
但Agent能力嘛,还在追。适合需要高准确性的场景,不适合拿来搞花活。
-
5:Qwen3.7 Max(阿里)
这是目前中国模型里综合最强的,全球前五没毛病。能力均衡、什么都能干,编程、长任务、日常使用都表现不错。
最关键的是性价比杀疯了,价格只有前面那几个美系模型的几分之一。日常主力选它,钱包不疼。
-
6:Kimi K2.6(月之暗面)
Moonshot的旗舰。超长上下文是它的杀手锏,多Agent协作也玩得转。
你如果经常搞长文档总结、深度研究、复杂工作流,这台绝对是利器。
短板?通用场景不如Qwen均衡。
-
7:GLM-5.2(智谱AI)
智谱最新一代,编码和Agentic任务是真的有点东西。
开源权重版本性能也强,适合自己折腾、做二次开发的玩家。
coding场景下甚至能跟Claude掰掰手腕,不开玩笑。
-
8:DeepSeek V4 Pro(深度求索)
极致性价比的代名词。推理和编码能力接近前沿水平,但价格低到离谱。
说白了就是"差不多够用,但便宜得要命"。社区里目前最受欢迎的高性能低成本选择,懂的都懂。
-
9:MiniMax M3(MiniMax)
效率取向的选手,特定场景下性价比优秀。适合对速度和成本极度敏感的生产环境。
不是最强,但该干的活都能干。
-
我的几点观察:
美系闭源还是霸着前四,Anthropic和OpenAI目前确实在领先位置。但注意,差距在缩小,不是错觉。
中国模型从第五名开始强势插入,Qwen3.7 Max是最均衡的代表。
而且在性价比维度上,中国模型(Qwen、DeepSeek、Kimi、GLM)已经可以说是碾压了。
很多实际场景能跑到前沿模型80-95%的效果,成本只要几分之一甚至几十分之一。这不叫卷属于降维打击。
开源权重这块更不用说,中国模型目前明显领先。
-
如果你问我怎么选:
追求极致、预算无限的话:Claude Fable 5 或者 Opus 4.8 。
日常主力、讲究性价比:Qwen3.7 Max,闭眼入 。
重度编程/Agent开发:GLM-5.2 或 DeepSeek V4 Pro 。
长文档和分析研究:Kimi K2.6。
这个排行保质期时间很短。AI这行现在就是这个节奏,你今天看完明天可能就过时了。
实际用起来别死磕一个模型,根据不同任务组合使用才是正道。
你目前主力用的是哪个?评论区聊聊。
显示更多