用 Mac 且跑本地大模型的朋友得留个心了,有个新东西可能你还不知道。
Rapid-MLX,这款专门针对 Apple Silicon 做的本地 LLM 推理服务,一句话总结就是:比 Ollama 快,而且快得肉眼可见。
具体快多少?官方给的数据是 2 到 4 倍。它背后跑的是苹果自家的 MLX 框架,不是社区里的野路子方案,而是真正把 M 系列芯片吃透了的设计。
主要体现在这几个方面:
1️⃣ KV 缓存裁剪加上 DeltaNet 状态快照,让多轮对话的首 token 延迟压到 0.08 秒左右。你懂这意味着什么——对话几乎感觉不到卡顿。
2️⃣ 工具调用方面内置了 17 种解析器,像 Qwen、DeepSeek、Gemma、GLM 这些主流模型都能自动识别格式。哪怕量化把输出搞坏了,它也能自动修回来,这细节做得很到位。
3️⃣ 提供 OpenAI 兼容 API,Cursor、Claude Code、Aider、LangChain 都能直接对接。基本你现在的工具链,切过来不用改代码。
此外还有推理链分离、云端路由、视觉与音频多模态支持、V 缓存压缩等功能,整体功能密度还挺高的。
说白了,如果你有一台 M 系列 Mac,想在本地跑模型又嫌 Ollama 慢,那么 Rapid-MLX 是目前最值得一试的选择之一。
🔗
显示更多