2026.06.25 09:18

这下让真的可以让很多人都闭嘴了！ Unsloth把GLM-5.2压缩到1-bit后。本地跑起来居然还能和Claude Opus、GPT-5.5正面比创意输出。他们用Mac Studio M3 Ultra 256GB RAM跑1-bit版本，速度还能到21 tok/s左右。在同一个prompt下生成的HTML/设计效果，看起来甚至比闭源模型更丰富、更“有想法”。这已经不是简单的量化了，而是把一个原本需要海量显存的超大模型，硬生生塞进了消费级硬件还能打。 GLM-5.2本身就以创意和长上下文见长，现在连极致量化后都还能保持较强的表现，确实有点超出预期。这也再次验证了一个趋势：开源模型在极端优化后，正在快速缩小和闭源前沿模型在实际可用性上的差距，尤其是在本地部署和特定任务上。大内存的本子这下真的太香了，Qwen 3.7 这些模型又该迭代版了。

显示更多

Unsloth AI@UnslothAI

2026.06.23 13:53

1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5 We gave 3 models the same prompt and compared one-shot outputs. The 1-bit GLM-5.2 GGUF ran locally on a Mac Studio M3 Ultra with 256GB RAM at ~21.6 tok/s. Which output do you like best? GGUF:

显示更多