AYi (@AYi_AInotes) “所有大模型排行榜都在骗你。 Cline团队用自己仓库的真实bug，在完全相同的环境下，测”

2026.06.23 01:08

所有大模型排行榜都在骗你。 Cline团队用自己仓库的真实bug，在完全相同的环境下，测了GLM-5.2和Claude Opus 4.8。结果非常打脸。 Opus速度快3倍，token消耗少一半，价格贵一倍。它修完了bug，跑通了所有测试。但生产构建直接崩了，留下了未被发现的类型错误。 GLM速度慢，token多67%，工具调用多2.3倍，价格便宜一半。它不仅修好了bug，还主动清理了死代码。最终构建干净通过，没有任何隐患。这就是排行榜和真实世界的差距。 SWE-bench只能测出能不能修bug。测不出修完之后会不会偷偷搞崩你的生产环境。测试过了不等于代码能用。这在大型项目里，是致命的。本质不是谁更聪明，因为训练目标完全不一样。 GLM被强化学习训练出了验证文化。多花的token，全用在了跑构建，查类型，清垃圾，防回归上。它不是笨，是负责任。 Opus追求高效交差，GLM追求一次做对。更值得注意的是，这是开源模型。它不再只是闭源模型的廉价替代品。它在长周期代码智能体的维度上，找到了自己的差异化优势。智能体时代的性价比逻辑彻底变了。以前比每千token多少钱。现在比每次成功任务多少钱。多花点token一次做对。永远比快但要返工两次更划算。更别说省下的人工排查成本。给所有做智能体的人两个建议，第一，别信排行榜，拿自己仓库的真实bug跑一遍。第二，在你的系统提示里强制加一条，完成前必须跑构建验证，清理死代码。未来比拼的从来不是谁的模型更聪明，而是看谁的模型更负责任。

显示更多

Cline@cline

2026.06.22 21:30

We've kept hearing how GLM-5.2 beats Opus 4.8, and are skeptical of benchmarks - so we tested them on a real bug from the Cline repo. While both models fixed the issue, GLM was the winner in terms of cost and code quality: - GLM used twice as many tokens (GLM 1.1m vs Opus 660K) but cost half as much (GLM $0.41 vs Opus $0.81) - Opus finished quicker - 1.6 min and 12 tool calls vs GLM 4.7 min and 28 tool calls - GLM cleaned up dead code and verified the build compiled before completing. Opus didn't - it left type errors that passed tests but broke the production build. Both runs used the same Cline harness prompting and tools, so it seems GLM is RL trained to spend more tokens verifying its work before completing. Impressive work by the @Zai_org team!

显示更多