注册并分享邀请链接,可获得视频播放与邀请奖励。

DeFi狙击手 | Ai🕊️ (@bi_9527zx) “聊最强模型这事本身就挺搞笑的。现在这赛道卷到什么程度?你今天排完名,明天就有人发” — TopicDigg

DeFi狙击手 | Ai🕊️ 的个人资料封面
DeFi狙击手 | Ai🕊️ 的头像
DeFi狙击手 | Ai🕊️
@bi_9527zx
Ai+web3探索执行者 | AI自动化 | 开源工具实测 | 分享可执行的参数与风控框架 | 个人记录,非投资建议 | 蓝鸟会
加入 November 2021
2.2K 正在关注    51.5K 粉丝
聊最强模型这事本身就挺搞笑的。现在这赛道卷到什么程度?你今天排完名,明天就有人发新版本把你脸打肿。但不排吧,老有人问。 行,那就按2026年6月底的情况,综合Arena人类偏好、Intelligence Index、编码、Agent表现这些维度,聊聊我心目中的全球前十。 - (以下排名纯个人看法,别杠,杠就是你对。) 1:Claude Fable 5(Anthropic) Anthropic 6月9号放的Mythos级公开模型。目前Arena人类偏好榜稳坐第一,长时程Agent和复杂推理是真的猛。 你要搞那种专家级任务,几小时的深度研究、多步骤自主Agent,这台目前是最靠谱的选择。有一说一,贵是真贵。 - 2:Claude Opus 4.8(Anthropic) 觉得Fable 5太激进、不稳定?Opus 4.8就是那个"稳如老狗"的选项。 编码、长上下文、复杂Agent工作流,表现极其可靠。很多专业开发者现在的主力机就是这台。 怎么说呢,它可能不是每一项都拿第一,但综合可靠性和能力,依然是旗舰中的旗舰。 - 3:GPT-5.5(OpenAI) OpenAI目前最成熟的日常模型。通用能力均衡得一批,工具调用和生态就不用说了,ChatGPT那套东西太完整了。 多模态体验也优秀,适合不想折腾、拿来就用的多数人。呃,但实话实说,硬核推理上已经被Anthropic拉开了。 - 4:Gemini 3.1 Pro(Google) Google目前的最强前沿模型。数学推理和多模态(图像、视频)这块是真的硬,研究分析类工作用它很舒服。 但Agent能力嘛,还在追。适合需要高准确性的场景,不适合拿来搞花活。 - 5:Qwen3.7 Max(阿里) 这是目前中国模型里综合最强的,全球前五没毛病。能力均衡、什么都能干,编程、长任务、日常使用都表现不错。 最关键的是性价比杀疯了,价格只有前面那几个美系模型的几分之一。日常主力选它,钱包不疼。 - 6:Kimi K2.6(月之暗面) Moonshot的旗舰。超长上下文是它的杀手锏,多Agent协作也玩得转。 你如果经常搞长文档总结、深度研究、复杂工作流,这台绝对是利器。 短板?通用场景不如Qwen均衡。 - 7:GLM-5.2(智谱AI) 智谱最新一代,编码和Agentic任务是真的有点东西。 开源权重版本性能也强,适合自己折腾、做二次开发的玩家。 coding场景下甚至能跟Claude掰掰手腕,不开玩笑。 - 8:DeepSeek V4 Pro(深度求索) 极致性价比的代名词。推理和编码能力接近前沿水平,但价格低到离谱。 说白了就是"差不多够用,但便宜得要命"。社区里目前最受欢迎的高性能低成本选择,懂的都懂。 - 9:MiniMax M3(MiniMax) 效率取向的选手,特定场景下性价比优秀。适合对速度和成本极度敏感的生产环境。 不是最强,但该干的活都能干。 - 我的几点观察: 美系闭源还是霸着前四,Anthropic和OpenAI目前确实在领先位置。但注意,差距在缩小,不是错觉。 中国模型从第五名开始强势插入,Qwen3.7 Max是最均衡的代表。 而且在性价比维度上,中国模型(Qwen、DeepSeek、Kimi、GLM)已经可以说是碾压了。 很多实际场景能跑到前沿模型80-95%的效果,成本只要几分之一甚至几十分之一。这不叫卷属于降维打击。 开源权重这块更不用说,中国模型目前明显领先。 - 如果你问我怎么选: 追求极致、预算无限的话:Claude Fable 5 或者 Opus 4.8 。 日常主力、讲究性价比:Qwen3.7 Max,闭眼入 。 重度编程/Agent开发:GLM-5.2 或 DeepSeek V4 Pro 。 长文档和分析研究:Kimi K2.6。 这个排行保质期时间很短。AI这行现在就是这个节奏,你今天看完明天可能就过时了。 实际用起来别死磕一个模型,根据不同任务组合使用才是正道。 你目前主力用的是哪个?评论区聊聊。
显示更多
0
41
36
1
转发到社区