给大家带来 Flash 系列模型横评!
各个厂商除了旗舰级别模型, 也都有Flash级别的模型, 而这些模型的定位主要都是多智能体系统的驱动模型和RAG系统的驱动模型. 那么现有这些Flash模型应该怎么选? 给大家带来本篇评测!
本次主要从 Agent Loop 迭代能力, Agent 能力, 前端, 后端, 空间理解, 美学, 性价比等多个角度评测了 Gemini-3.5-Flash, Step-3.7-Flash, DeepSeek-V4-Flash 这三个模型.
从测试来看, Gemini-3.5-Flash 更适合干"漂亮活", 比如前端页面, 建模等.
而 Step-3.7-Flash 则极具性价比, 在Agent测试中取得了比旗舰模型还要高的Token效率(用最少的token干最多的事情). 所以特别适合用在Agent框架中(比如OpenClaw或者Hermes), 或者复杂的Agent系统中用来做驱动模型.
DeepSeek-V4-Flash 则后端能力很不错, 很适合用来写脚本, 甚至给服务器安装一个 DeepSeek-V4-Flash 驱动的 ClaudeCode, 用来 AI-Ops.
#
flash模型# #
step37flash# #
deepseekv4flash# #
gemini35flash# #
AgentLoop#
显示更多
📢 DeepSeek-V4-Pro, DeepSeek-V4-Flash & Gemini 3 Flash Service Upgrade & Maintenance Notice
To ensure greater stability for model services, we are currently performing upgrade and maintenance work on the service infrastructure of DeepSeek-V4-Pro, DeepSeek-V4-Flash, and Gemini 3 Flash.
During this period, DeepSeek-V4-Pro, DeepSeek-V4-Flash, and Gemini 3 Flash may be temporarily unavailable or experience occasional request failures. Relevant maintenance notices will be displayed on the model pages, and you may continue switching to and using other available models without interruption.
Once the upgrade is completed, related services will be restored ASAP. Thank you for your understanding and continued support!
📢 DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 Gemini 3 Flash 模型服务升级维护通知
为保障模型调用稳定性,平台正对 DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 Gemini 3 Flash 模型服务链路进行升级维护。
在此期间,DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 Gemini 3 Flash 可能会暂时不可用,或出现调用失败等情况。页面对于正在维护的模型有相关提示,您可正常切换使用其他可用模型。
升级完成后,我们将第一时间恢复相关服务。感谢大家的理解与支持!
显示更多
你买的 GLM-5.2,可能根本不是 GLM-5.2
最近我们把市面上多家中转站正在卖的 "GLM-5.2” 测了一遍。结果大部分都不是GLM -5.2。
我们见到的几种常见掺假手法:
1. 换皮是最常见的。
就是把一个更便宜的大模型,贴上 "GLM-5.2 / glm-5-2" 的标在卖,因为目前GLM - 5.2 货源很紧张,所以价格非常低的,这个测出来大部分就是dsv4flash。
2. 虚标上下文。
GLM-5.2 官方标的是 100 万(1M)token 上下文。但很多渠道,你真往里塞 25 万、30 万 token,要么直接超时报错,要么前后文明显遗忘、截断。
3. 缩水 / 量化。
这种就是中转站给你压缩了,测试的时候跑分很好看,但是真上长程任务、多文件重构就露原形。
4. 只展示 min 价 + 动态路由。 价格页挂一个漂亮的最低价,实际请求被悄悄路由到更差、更便宜的后端。你看到的价,和你拿到的模型,是两回事。
二、实测全过程,方便大家去检测:
我们拿到一个号称 "GLM-5.2"、价格低到离谱(约官方价 1/20)的渠道,这个渠道低到连电费都赚不回来,所以我就觉得很蹊跷,一步步扒:
首先看价格,起疑。 它标价约 $0.07 / 百万输入、$0.22 / 百万输出。这个价,连官方 GLM-5.2 的零头都不到。
一个按官方原价拿货的授权 reseller,根本做不出这个价。价格反常,是第一个危险信号。
第 1 步:列模型、起一个最简单的调用。 接口能通,返回里 model 字段确实写着 "glm-5.2"。但"返回里写 glm"只能说明它给你贴了这个标,说明不了它到底是什么,有可能是glm上一代模型,甚至拿dsv4flash给你凑数。
第 2 步:身份探测。 我们用不同问法,连问它五遍"你是什么模型、哪家公司训练的"。
结果五次里有四次,它自报是 DeepSeek 系模型(DeepSeek-V3 / R1),其中一次还明确说"我不是 GLM、不是智谱"。名字能改,身份认知改不掉。第一个实锤:它根本不是 GLM。
第 3 步:上下文硬测。
我们做了两层测试。先在一篇约 25 万 token 的长文里埋一串随机暗号,结尾再问它,它准确召回。
但是在长文里埋五条互相依赖的事实(A 等于 7,B 等于 A 的三倍,C 等于 B 加 8,以此类推),要它跨段把最终值算出来,它给出了完全正确的链式结果。
这一步很关键,单点召回也许能靠"检索作弊"蒙混,但跨段整合做不了假,说明它是真把 25 万 token 吃进去在做推理。
结论:它不是小模型,而且上下文比 GLM-5.1 的 20 万还大,结果是deepseek系。
第 4步:终极对照实验(决定性)。 我们直接拿官方 DeepSeek 的 API(里面正好有 deepseek-v4-flash 这个正版模型),和这个 "glm-5-2" 做指纹比对:用同一批 temperature=0 的确定性提示词,两边同时打,逐条比对输出。结果:
• 同一道"讲个程序员笑话",两边逐字一模一样;
• 同一道"你是 V3 还是 V4",两边都答 "unsure";
• 连"认不出自己、自报成旧版 DeepSeek-V3"这个毛病,官方 v4-flash 和这个 "glm-5-2" 都一样犯。
也就是说:官方正版 DeepSeek-V4-Flash 的种种指纹,这个 "GLM-5.2" 全对得上。实锤收工:这个所谓的 "GLM-5.2",就是 DeepSeek-V4-Flash 贴了智谱的标在卖。它不是缩水的 GLM,它压根不是 GLM。
总结:
身份探测: 同一问题问三到五遍,看它回答是否稳定、是否对得上官方规格,有没有自报成别家模型。
上下文硬测: 埋暗号,再埋几条互相依赖的事实,顶到 25 万 token 以上,看它吃不吃得下、能不能跨段算对。吃不下或答错,就不是满血。
指纹比对: 同一个 temperature=0 提示词,把"待测渠道"和"官方原厂"的输出摆一起比。高度一致就是同一个模型,对不上就是两个东西。
经济常识: 官方满血卖到官方价 1/20,经济上根本不成立。价格低到离谱的"满血",基本可以直接判死。
显示更多