注册并分享邀请链接,可获得视频播放与邀请奖励。

Gas留在链上 (@cevenif) “用 Mac 且跑本地大模型的朋友得留个心了,有个新东西可能你还不知道。 Rapid-MLX,这” — TopicDigg

Gas留在链上 的个人资料封面
Gas留在链上 的头像
Gas留在链上
@cevenif
七年币圈/撸毛/比特生态 $btc $eth #Bitcoin#
加入 December 2018
8.9K 正在关注    28.3K 粉丝
用 Mac 且跑本地大模型的朋友得留个心了,有个新东西可能你还不知道。 Rapid-MLX,这款专门针对 Apple Silicon 做的本地 LLM 推理服务,一句话总结就是:比 Ollama 快,而且快得肉眼可见。 具体快多少?官方给的数据是 2 到 4 倍。它背后跑的是苹果自家的 MLX 框架,不是社区里的野路子方案,而是真正把 M 系列芯片吃透了的设计。 主要体现在这几个方面: 1️⃣ KV 缓存裁剪加上 DeltaNet 状态快照,让多轮对话的首 token 延迟压到 0.08 秒左右。你懂这意味着什么——对话几乎感觉不到卡顿。 2️⃣ 工具调用方面内置了 17 种解析器,像 Qwen、DeepSeek、Gemma、GLM 这些主流模型都能自动识别格式。哪怕量化把输出搞坏了,它也能自动修回来,这细节做得很到位。 3️⃣ 提供 OpenAI 兼容 API,Cursor、Claude Code、Aider、LangChain 都能直接对接。基本你现在的工具链,切过来不用改代码。 此外还有推理链分离、云端路由、视觉与音频多模态支持、V 缓存压缩等功能,整体功能密度还挺高的。 说白了,如果你有一台 M 系列 Mac,想在本地跑模型又嫌 Ollama 慢,那么 Rapid-MLX 是目前最值得一试的选择之一。 🔗
显示更多
0
19
337
83
转发到社区