2026.05.25 15:18

昨晚 Qwen3.7-Max 一上 API，我第一时间就去充钱测了。测完的感觉就一句：这波千问，真有点把国产模型第一的位置坐实了。我挑了 3 个题目去压它，分别看前端能力、算力能力和 Agent 能力。结果还真不是那种“参数很好看，实测一塌糊涂”的路子。完成度很高，而且是那种你一跑就能感觉出来的稳定。之前我也拿 DeepSeek-v4 Pro 和 Kimi 2.6 跑过类似测试。单次执行的完成度，体感大概就是： Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro 这个排序跟它这次在 Terminal-Bench 反超 Claude Opus 4.6 的表现，基本对上了，不是榜单吹出来的。推理这块，我拿奥数题和几道 HMMT 题压了一下。准确率还不是全场第一，但比我上个月测的 3.6，明显又抬了一档。而且有个细节我挺在意：它碰到真不会的题，会直接说自己不确定，不会硬编一个看起来很像对的答案糊你。这点真的很像 Claude。还有个事我越看越离谱。 Qwen 这迭代速度是不是有点太猛了。 3 月发 3.5，4 月发 3.6，5 月直接 3.7，基本是月更节奏。更夸张的是，不是那种“版本号加了个小数点”，而是每次上来都真有提升。推上大家天天聊 Kimi、DeepSeek，Qwen 声量反而没那么炸。但它这条线，已经默默冲进第一梯队了，而且不是虚名。海外 OpenRouter 那边，Qwen3.6-Plus 的调用量刚破平台纪录。单日 1.4 万亿 Token。这数字已经不是“大家都来试试”了，是开发者真在拿钱投票。还有一点很关键。这一代千问明显是在往 Agent 方向狠狠干。极限压测下，长程任务能连续跑 35 小时不崩。跨 Agent 框架的兼容性，也比上一代顺手很多。说白了，这不是一次普通更新。是那种你测完会冒一句“我靠，怎么又进化了”的更新。

显示更多