Gas留在链上 (@cevenif) “用 Mac 且跑本地大模型的朋友得留个心了，有个新东西可能你还不知道。 Rapid-MLX，这”

2026.06.16 07:30

用 Mac 且跑本地大模型的朋友得留个心了，有个新东西可能你还不知道。 Rapid-MLX，这款专门针对 Apple Silicon 做的本地 LLM 推理服务，一句话总结就是：比 Ollama 快，而且快得肉眼可见。具体快多少？官方给的数据是 2 到 4 倍。它背后跑的是苹果自家的 MLX 框架，不是社区里的野路子方案，而是真正把 M 系列芯片吃透了的设计。主要体现在这几个方面： 1️⃣ KV 缓存裁剪加上 DeltaNet 状态快照，让多轮对话的首 token 延迟压到 0.08 秒左右。你懂这意味着什么——对话几乎感觉不到卡顿。 2️⃣ 工具调用方面内置了 17 种解析器，像 Qwen、DeepSeek、Gemma、GLM 这些主流模型都能自动识别格式。哪怕量化把输出搞坏了，它也能自动修回来，这细节做得很到位。 3️⃣ 提供 OpenAI 兼容 API，Cursor、Claude Code、Aider、LangChain 都能直接对接。基本你现在的工具链，切过来不用改代码。此外还有推理链分离、云端路由、视觉与音频多模态支持、V 缓存压缩等功能，整体功能密度还挺高的。说白了，如果你有一台 M 系列 Mac，想在本地跑模型又嫌 Ollama 慢，那么 Rapid-MLX 是目前最值得一试的选择之一。 🔗

显示更多