昨晚 Qwen3.7-Max 一上 API,我第一时间就去充钱测了。
测完的感觉就一句:
这波千问,真有点把国产模型第一的位置坐实了。
我挑了 3 个题目去压它,分别看前端能力、算力能力和 Agent 能力。
结果还真不是那种“参数很好看,实测一塌糊涂”的路子。
完成度很高,而且是那种你一跑就能感觉出来的稳定。
之前我也拿 DeepSeek-v4 Pro 和 Kimi 2.6 跑过类似测试。
单次执行的完成度,体感大概就是:
Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro
这个排序跟它这次在 Terminal-Bench 反超 Claude Opus 4.6 的表现,基本对上了,不是榜单吹出来的。
推理这块,我拿奥数题和几道 HMMT 题压了一下。
准确率还不是全场第一,但比我上个月测的 3.6,明显又抬了一档。
而且有个细节我挺在意:
它碰到真不会的题,会直接说自己不确定,不会硬编一个看起来很像对的答案糊你。
这点真的很像 Claude。
还有个事我越看越离谱。
Qwen 这迭代速度是不是有点太猛了。
3 月发 3.5,4 月发 3.6,5 月直接 3.7,基本是月更节奏。
更夸张的是,不是那种“版本号加了个小数点”,而是每次上来都真有提升。
推上大家天天聊 Kimi、DeepSeek,Qwen 声量反而没那么炸。
但它这条线,已经默默冲进第一梯队了,而且不是虚名。
海外 OpenRouter 那边,Qwen3.6-Plus 的调用量刚破平台纪录。
单日 1.4 万亿 Token。
这数字已经不是“大家都来试试”了,是开发者真在拿钱投票。
还有一点很关键。
这一代千问明显是在往 Agent 方向狠狠干。
极限压测下,长程任务能连续跑 35 小时不崩。
跨 Agent 框架的兼容性,也比上一代顺手很多。
说白了,这不是一次普通更新。
是那种你测完会冒一句“我靠,怎么又进化了”的更新。
显示更多