你买的 GLM-5.2,可能根本不是 GLM-5.2
最近我们把市面上多家中转站正在卖的 "GLM-5.2” 测了一遍。结果大部分都不是GLM -5.2。
我们见到的几种常见掺假手法:
1. 换皮是最常见的。
就是把一个更便宜的大模型,贴上 "GLM-5.2 / glm-5-2" 的标在卖,因为目前GLM - 5.2 货源很紧张,所以价格非常低的,这个测出来大部分就是dsv4flash。
2. 虚标上下文。
GLM-5.2 官方标的是 100 万(1M)token 上下文。但很多渠道,你真往里塞 25 万、30 万 token,要么直接超时报错,要么前后文明显遗忘、截断。
3. 缩水 / 量化。
这种就是中转站给你压缩了,测试的时候跑分很好看,但是真上长程任务、多文件重构就露原形。
4. 只展示 min 价 + 动态路由。 价格页挂一个漂亮的最低价,实际请求被悄悄路由到更差、更便宜的后端。你看到的价,和你拿到的模型,是两回事。
二、实测全过程,方便大家去检测:
我们拿到一个号称 "GLM-5.2"、价格低到离谱(约官方价 1/20)的渠道,这个渠道低到连电费都赚不回来,所以我就觉得很蹊跷,一步步扒:
首先看价格,起疑。 它标价约 $0.07 / 百万输入、$0.22 / 百万输出。这个价,连官方 GLM-5.2 的零头都不到。
一个按官方原价拿货的授权 reseller,根本做不出这个价。价格反常,是第一个危险信号。
第 1 步:列模型、起一个最简单的调用。 接口能通,返回里 model 字段确实写着 "glm-5.2"。但"返回里写 glm"只能说明它给你贴了这个标,说明不了它到底是什么,有可能是glm上一代模型,甚至拿dsv4flash给你凑数。
第 2 步:身份探测。 我们用不同问法,连问它五遍"你是什么模型、哪家公司训练的"。
结果五次里有四次,它自报是 DeepSeek 系模型(DeepSeek-V3 / R1),其中一次还明确说"我不是 GLM、不是智谱"。名字能改,身份认知改不掉。第一个实锤:它根本不是 GLM。
第 3 步:上下文硬测。
我们做了两层测试。先在一篇约 25 万 token 的长文里埋一串随机暗号,结尾再问它,它准确召回。
但是在长文里埋五条互相依赖的事实(A 等于 7,B 等于 A 的三倍,C 等于 B 加 8,以此类推),要它跨段把最终值算出来,它给出了完全正确的链式结果。
这一步很关键,单点召回也许能靠"检索作弊"蒙混,但跨段整合做不了假,说明它是真把 25 万 token 吃进去在做推理。
结论:它不是小模型,而且上下文比 GLM-5.1 的 20 万还大,结果是deepseek系。
第 4步:终极对照实验(决定性)。 我们直接拿官方 DeepSeek 的 API(里面正好有 deepseek-v4-flash 这个正版模型),和这个 "glm-5-2" 做指纹比对:用同一批 temperature=0 的确定性提示词,两边同时打,逐条比对输出。结果:
• 同一道"讲个程序员笑话",两边逐字一模一样;
• 同一道"你是 V3 还是 V4",两边都答 "unsure";
• 连"认不出自己、自报成旧版 DeepSeek-V3"这个毛病,官方 v4-flash 和这个 "glm-5-2" 都一样犯。
也就是说:官方正版 DeepSeek-V4-Flash 的种种指纹,这个 "GLM-5.2" 全对得上。实锤收工:这个所谓的 "GLM-5.2",就是 DeepSeek-V4-Flash 贴了智谱的标在卖。它不是缩水的 GLM,它压根不是 GLM。
总结:
身份探测: 同一问题问三到五遍,看它回答是否稳定、是否对得上官方规格,有没有自报成别家模型。
上下文硬测: 埋暗号,再埋几条互相依赖的事实,顶到 25 万 token 以上,看它吃不吃得下、能不能跨段算对。吃不下或答错,就不是满血。
指纹比对: 同一个 temperature=0 提示词,把"待测渠道"和"官方原厂"的输出摆一起比。高度一致就是同一个模型,对不上就是两个东西。
经济常识: 官方满血卖到官方价 1/20,经济上根本不成立。价格低到离谱的"满血",基本可以直接判死。
显示更多