Berryxia.AI (@berryxia)

2026.05.14 15:43

凌晨刷到这条，我脊背瞬间发凉，全身鸡皮疙瘩都起来了。 @zcbenz，MLX维护者、Electron.js创始人，在Apple亲手把这个消息放了出来： MLX的CUDA后端，所有测试全部通过！那个曾经被当成“苹果硅独占玩具”的MLX，现在直接杀进了NVIDIA的主场。同一套代码。 Mac上极致丝滑，NVIDIA显卡上也全速狂飙。以前大家还在PyTorch的兼容地狱里挣扎，Apple用MLX悄无声息打出一记王炸。本地AI的跨平台时代，真的要来了。而且来得比所有人想象的都要猛、都要狠。我现在只剩下一个感觉——血脉喷张。 MLX的CUDA时代，正式拉开序幕。你敢信！

显示更多

Cheng@zcbenz

2026.05.13 23:04

We have achieved a milestone in MLX that all tests are passing in CUDA backend now.

320

转发到社区

Berryxia.AI@berryxia

2026.05.14 14:01

Agent 记忆真是太特么卷了啊！不得不说，这个赛道越多人加入越爽啊！ Tencent AI团队花了整整6个月，就死磕一个问题：AI agent长会话里疯狂丢上下文。他们最后把一套记忆系统做完，直接开源了。我看完他们的分享，最大的感受是，99%的人还在卷上下文长度，真正把agent拉回正轨的，是这三招硬核操作。第一招，实时压缩过期上下文。直接把token消耗砍掉61%。以前动不动就爆上下文，现在中途就瘦身，agent还能保持清醒。第二招，给agent画一张结构化的任务地图，用mermaid语法直接生成。 30多步的复杂流程里，丢轨概率大幅下降。 agent不再像无头苍蝇，它知道自己现在在哪一步，该往哪走。第三招，专门给agent建了Persona记忆。人格一致性从48%直接跳到76%。它不再一会儿专业一会儿随意，回答风格和角色设定稳得一批。这套东西不是理论，是他们真实踩坑6个月踩出来的。 Repo已经挂出来了，谁在做agent的赶紧去试。以前总觉得agent记忆难，是因为我们把问题想简单了。真正难的不再是存更多信息，是需要解决让它在正确的时间用正确的方式想起正确的东西。你还在靠堆token解决agent记忆问题吗？项目地址：

显示更多

Tencent AI@TencentAI_News

2026.05.14 07:14

We spent 6 months on one problem: agents losing context in long sessions. Ended up building and open-sourcing an agent memory system. A few things we learned: 🪄compressing stale context mid-session cut token usage by 61% 🪄giving agents a structured task map (mermaid-based) made them way less likely to lose track in 30+ step workflows 🪄persona coherence jumped from 48% to 76% once we added dedicated persona memory repo 👉 Agent memory is genuinely hard and we don't have all the answers. Happy to dig into architecture, benchmarks, tradeoffs, whatever. AMA👇 @TencentDBAbxo2 team is here to talk about it.

显示更多

418

转发到社区

Berryxia.AI@berryxia

2026.05.07 08:49

刚刚刷到Hugging Face上这个gpt-oss-20b-tq3，真的有点爽啊！ OpenAI自己开源的20B参数MoE模型，被社区用TurboQuant 3-bit量化 + MLX优化后，竟然能直接在普通MacBook上本地丝滑跑起来。完全不用联网、不用交月费，还支持131K超长上下文。日常聊天、写作、写代码这些日常需求，现在都能在自己笔记本上搞定。非常适合公司的一些部门使用啊！以前本地跑大模型还得配高端显卡，现在一台M系列Mac就够了。模型直达👉

显示更多