My entire AI stack is now Chinese 🇨🇳
87% cheaper. same revenue
swaps by task:
1. reasoning / backend brain
Opus 4.8 → Kimi K2.7
benchmark gap: ~8% · price: ~11x cheaper
2. code generation
GPT-5.5 → Qwen 3.7 Max
benchmark gap: ~18% · price: ~7x cheaper
3. agent loops + tool calling
Sonnet 4.7 → GLM 5.2
benchmark gap: ~3% · price: ~5x cheaper on input
4. cheap volume / bulk processing
GPT-5.5 mini → MiMo V2.5
benchmark gap: ~6% · price: ~12x cheaper
5. image generation
GPT-Image-2 → Wan 2.5
benchmark gap: ~5% · price: ~8x cheaper
6. video generation
Sora 2 → Kling 3.0
benchmark gap: roughly equal · price: ~6x cheaper
[ result after 30 days: ]
operating costs dropped 87%, output quality dropped 4% on average, revenue unchanged
the most important that these models will be not banned in a month and i can run them locally
nobody will steal my data and i can learn them as i need
full article drops tomorrow with:
> exact routing logic per task type
> the 2 cases where I still pay for American
> the migration playbook anyone can copy in a weekend
VERY IMPORTANT to get migrated now, while it's not too late
显示更多
MARK ZUCKERBERG ACABA DE EXPLICAR SU VISION PARA LOS PROXIMOS 10 AÑOS
Y por primera vez en mucho tiempo, no está vendiendo el metaverso.
Está hablando de un futuro donde la IA no solo responde… sino que ACTUA por ti. Agentes que operan, sistemas que recuerdan todo, interfaces que desaparecen.
Lo más interesante no es lo que dice.
Es que mientras los grandes corporativos siguen planeando a 10 años, hay gente que ya está construyendo eso HOY con herramientas open source, modelos locales y loops de agentes.
Zuck tiene razón en algo: el que no empiece a moverse hacia sistemas inteligentes ahora, en muy poco tiempo va a estar jugando en otra liga.
¿Estás construyendo o todavía estás esperando a ver qué pasa?
显示更多
我越来越觉得,Prompt 可能是 AI 时代最大的“新手陷阱”。
每天复制粘贴、补充背景、检查结果、继续追问……AI 变聪明了,人却成了它的全职保姆。
真正的分水岭,不是谁更会写提示词,而是谁能把重复工作变成 Loop:记住变化、主动运行、彼此协作,只在需要你决定时出现。
如果每一步都要你下命令,那到底是 AI 在替你工作,还是你在管理 AI?
视频里用“孩子春游”和“一把快坏的菠菜”,讲清了 Prompt、Loop 和 Loop of Loops 的区别👇
显示更多
Skip transformer math to build AI agents in 2026.
You just need these 6 (+1) core architectural pillars.
𝟭. 𝗠𝗼𝗱𝗲𝗹 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗣𝗿𝗼𝘁𝗼𝗰𝗼𝗹 (𝗠𝗖𝗣)
Think "USB-C for AI." One universal standard that lets any agent plug into external tools and data — instead of hand-building an integration for every tool. Anthropic introduced it; the industry adopted it fast.
𝟮. 𝗔𝗴𝗲𝗻𝘁 𝗟𝗼𝗼𝗽𝘀
The engine behind every agent. A cycle of: perceive → think → act → observe → repeat. The agent keeps looping until the task is done, or it decides it's stuck. No loop, no autonomy.
𝟯. 𝗦𝗸𝗶𝗹𝗹𝘀
The agent's job description. MCP handles the connection and tools expose the API, a Skill is the higher-level logic that orchestrates them into a finished outcome.
𝟰. 𝗦𝗶𝗻𝗴𝗹𝗲 𝘃𝘀 𝗠𝘂𝗹𝘁𝗶-𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲
Two ends of one spectrum. Single-agent: one LLM runs the whole pipeline. Multi-agent: specialized agents split the work, one retrieves, one validates, one writes, trading simplicity for scale.
𝟱. 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗥𝗔𝗚
RAG with a brain. The agent can route queries to specialized knowledge sources, validate retrieved context, and make dynamic decisions about what information to use.
𝟲. 𝗔𝗴𝗲𝗻𝘁 𝗠𝗲𝗺𝗼𝗿𝘆
Short-term lives in the context window; long-term is pulled on demand from external stores (knowledge bases or vector databases). It's what keeps agents coherent across interactions, and lets them learn from past ones.
𝟳. 𝗛𝘂𝗺𝗮𝗻-𝗶𝗻-𝘁𝗵𝗲-𝗟𝗼𝗼𝗽 (𝗛𝗜𝗧𝗟)
The ultimate guardrail. Autonomous loops are powerful, but pure autonomy is dangerous for high-stakes tasks. HITL inserts human checkpoints for approval or correction before critical actions run.
Which term would you add? 🤔
显示更多
everyone is talking about agent loops, harnesses, and self-evolving agents.
but almost no one is talking about the actual hard part:
you cannot run a company on one giant agent with every tool, every file, and no accountability. that's not autonomy. that's a fog machine.
here's how we're building an agent company OS inside Matrix.
—
the stack:
Workspace Brain
→ Matrix Runtime Orchestrator
→ Department Verticals
→ Department Lead Agents
→ Worker Agent Pool
→ Proof / Check-in Loop
Matrix is not a chatbot. it's an operating system for autonomous work.
—
the workspace brain is the company boundary.
it gets loaded with the things a real company actually runs on:
→ product docs
→ codebase context
→ chats, files, goals
→ operating rules
→ prior runs + examples of good work
→ approvals, memory, skills
this isn't "context." it's the shared operating layer. it knows what the company knows, what it's trying to do, who owns what, what good looks like, and what must be proven before work counts as done.
—
on top sits the Matrix Runtime. it coordinates wake, cron, department messages, OKR state, permissions, worker dispatch, proof ledger, memory updates.
under the runtime, work is organized into departments.
a department is not a chat thread. it's a long-running agent with identity, memory, skills, goals, history, tool boundaries, taste, and accountability.
Founder Strategy. Product Engineering. Growth. Ops. Research.
each one has a lead agent that decides what happens, reads the relevant Memory Skill, breaks work into scoped tasks, and picks the right execution seat.
—
sometimes that seat is a native Matrix worker.
sometimes Codex.
sometimes Claude Code.
sometimes a browser / computer automation worker.
the point is not "one model does everything." the point is:
→ the right agent
→ with the right context
→ inside the right boundary
→ using the right tools
→ with a clear definition of done
—
this is why scoped workers matter.
a "do everything" agent is too vague. but:
→ a release worker with repo context, tests, and approval gates → very good
→ a Codex worker scoped to one patch and one validation path → very good
→ a Claude Code worker doing deep repo analysis → very good
→ a browser worker with a specific flow and proof requirement → very good
narrow scope reduces drift. Memory Skill keeps narrow agents from going blind. proof prevents fast output from pretending to be progress.
—
that is the loop:
Workspace Brain → Department Lead → Worker → Artifact → Proof → Check-in → Memory Skill update
every cycle, the company gets smarter. that's the real self-evolution. not a single agent rewriting its own prompt in a void — but a whole org compounding through proof.
—
each workspace is an isolated agent company. its own brain, departments, memory, workers, proof ledger.
workspaces can talk when needed. but context should not bleed by default.
isolation is not a limitation. it's what makes the system usable.
—
once a department pattern works, you fork the pattern — not the raw context. you still customize memory, examples, approval gates, tools, voice, definition of done.
but you're not starting from zero. you might already have 70% of the OS for that kind of work.
—
what this actually changes:
a small team of strong operators can now run surfaces that used to require entire departments.
but only if the agents are actually good. and good agents don't come from connecting more tools. they come from source material, taste, iteration, narrow scope, workflow design, proof, memory, and human judgment.
vague agents just create vague output faster.
Matrix is our attempt to build the opposite:
an agent company OS where autonomous work has structure, memory, ownership, and proof.
the loop is the product.
显示更多
Elon just hinted at Neuralink’s next major leap:
Not just brain-to-computer control
Higher-bandwidth communication between humans, AI, and eventually humans themselves
This is much bigger than typing with your brain
AI is moving at a speed humans simply can’t match through keyboards, phones, voice, or even language itself
We think in rich ideas
Then we compress those ideas into words
Then someone else has to decode those words back into meaning
That is painfully low bandwidth
AI does not have that problem
Machines can process, respond, and improve at insane speed
If humans stay trapped in slow communication loops while AI keeps accelerating, we lose the advantage
Neuralink is the bridge
“In the long term, Neuralink hopes to play a role in AI risk / civilizational risk reduction by improving human-to-AI and human-to-human bandwidth by several orders of magnitude” — Elon Musk
Brain → computer is step one
Brain → AI is the next frontier
Brain → brain is the long-term vision
Human intent moving closer to the speed of thought
This is how humans stay competitive in the age of superintelligence
Not by slowing AI down
By upgrading human bandwidth
显示更多
How to fold a paper airplane that loops back to you: fun for kids to play with.
推荐这篇文章,Flask 作者 Armin Ronacher 写了这两天我看到最诚实的 loops 反思。之前两篇都在讲 loop 怎么搭、工程怎么落地,这篇问了一个没人敢问的问题:loop 写出来的代码你真的喜欢吗?如果你在用 AI 写代码,这篇可能会让你停下来想一下。
即将到来的 Loop
我不再给 Claude 写 prompt 了。我跑着一些 loop,它们负责给 Claude 写 prompt 并决定做什么。我的工作是写 loop。
— Boris Cherny
过去几个月,我看到越来越多的人在 coding agent 之上构建一些感觉上跟"直接用 coding agent"有本质区别的东西。模式到处都一样:任务被放进某种队列,机器捡起来、尝试、停下来,然后 harness 判断那是不是真的结束。
如果不是,harness 继续同一个 session、注入另一条消息、用修改过的 context 启动一个新的 session、或者把任务发给另一台机器。任务在模型自己本该说"我做完了"的那个点之后,继续活着。
我想这种 loop 想到自己都不好意思承认。
每个 coding agent 内部已经有一个 agent loop 了。模型调用工具、整合结果、再调用工具、读文件、改文件、跑测试、最终生成答案。那个 loop 我们已经相当熟悉了。另一种 loop 是 harness 级别的 loop:agent loop 之外的 loop。那个 loop 也不是新的。从 Claude Code 早期我们就一直在做各种版本,但那个 loop 在 agentic engineering 中越来越重要,最近几周已经开始主导 Twitter discourse。
我还不擅长这个
我目前的状况是:对于我真正在意的代码,我还没怎么成功用过这种工作方式——而这恰好是我相当大一部分代码。
部分原因是品味,部分原因是控制。我对我想要的代码样子设了一个很高的标准,我想理解我交付的代码。在压力下,或者跟另一个人讨论时,我想能够解释清楚系统做了什么,而不是先让一个 clanker 解释给我听。显然,这种"想理解代码"的愿望是否会在几年后依旧存在,是一个问题。但现在,我还没有越过"理解对我来说很重要"这个阶段。
基于这个愿望,对于没有我关注时写出来的代码,尤其是由 loops 产生的代码,我感觉有些东西缺失了。当前模型倾向于产生过于防御性、过于复杂、推理过于局部的代码。它们避免强不变量。它们添加 fallback 而不是让坏状态变得不可能。它们重复代码、发明糟糕的抽象、用更多 machinery 掩盖不清晰的设计。更糟的是:我几乎看不到这方面有什么进步。如果有什么变化的话,我觉得我们可能还在往错误的方向走。至少以我的品味,当前像 Claude Code with ultracode 这样的无人值守 harness 产出的代码,比去年秋天我们产出的还要差。因为 Claude Code 加 Fable 会连续不停地在一个问题上工作 30 分钟甚至更久,而过去这个过程会有更多人参与。
此外,一个众所周知的问题是模型倾向于观察到某个局部失败然后添加局部防御。Karpathy 提到他们"对异常感到极度恐惧"。在具有重要不变量的系统中,尤其是持久化数据格式或核心基础设施,正确的修复不是"处理每个异常情况"。正确的修复是让异常情况一开始就无法被表达或写入。但即便有大量人工引导,LLM 也不会自然地产生那种代码,而且即使代码自然地像那样产生了,它们仍然会试图处理现在已不可能的错误。
当你把这种行为放到 loops 后面时,你往往会放大它。如果每次迭代都添加一个小防御,系统会慢慢变得更不透明,同时表面看起来更健壮。你越放手,这种情况就越严重。当这样的工具交给没有清晰指导的初级开发者时,它还会教给他们非常糟糕的实践。因为如果你问他们为什么做所有这些,他们会令人信服地论证自己的做法。
Loop 在哪里有效
但与此同时,假装 loop 模式不管用也是不诚实的——它在某些领域已经好得惊人。
代码移植就是其中之一。已经有令人印象深刻的大规模自动化移植案例,包括报道中把 Bun 的部分代码从 Zig 移植到 Rust 的工作。我自己也成功用它把 MiniJinja 移植到了 Go。性能探索是另一个效果惊艳的场景。机器可以尝试实验、跑 benchmark、丢弃失败、继续搜索。安全扫描也自然适合,几乎任何类型的研究也一样:让系统探索一个复杂的问题空间然后汇报回来,不一定要提交持久化的代码。
这些场景的共性是:它们要么不生成新代码,而是转换已有代码;要么产生的代码有意不需要长期存活。它们要么产出 PoC 或想法,要么呈现发现,或者更像机械性的转换。
我相信,产出不需要长寿的 artifacts 的 loop,或者产出某种可清晰验证的机械性翻译的 loop,比 harness 机械性地衡量某个目标的一般能力更重要。很多成功的 loop 应用用另一个 LLM 作为 judge 或 orchestrator。机械性翻译场景可以用二元测试用例验证,但它也可以用 LLM 来评判!
Claude Code 在创建完整的实验性工作流并执行它们方面,变得越来越好。当然,它生成的代码是 slop,但那更多是模型的问题,而不是 harness 不能很好地判断工作流中的某一步是否带来了净改进或完成。
Harness 只需要一些信号让它能继续。不需要客观或二元——只需要足够有用来驱动下一次迭代。
我非常喜欢那些能把我日常中的无聊部分拿走的 loops——做实验、测量、给我灵感。
软件作为有机体
另一方面,用同样的 loop 方法来写持久化的代码,我还不觉得舒服。我喜欢的比喻是:从软件作为确定性机器,到软件作为有机体。
我成为一名软件工程师的环境鼓励我理解机器。总有一层你可以剥开来加深理解。不展现确定性可观测行为的机器也许被接受,但一般不被认为是最优的。在软件架构上,我认为追求更多的确定性而不是更少是可取的。同样,理解代码的能力一直是一个不可否认的目标。实践中并不总是可能,但我们仍然以写出好的代码为荣,使得即使是新工程师也能通过巧妙的架构在复杂的代码库中导航。在设计良好的系统上,总有一些工程师知道不变量在哪里,哪些部分是承重的,哪些改动是安全的。理想情况下所有这些都是有良好文档的。在缺乏这种理解的地方,通常被认为是需要改进的事情。
显然,那个理想一直都很紧张。许多软件系统,尤其是非常成功的系统,在工程师能让它保持干净的时期过后,常常变得太大、太动态、太依赖外部服务,无法装进任何人的脑袋。即使没有 LLM,我们在诊断分布式系统时也已经有点像医生了:观察症状、提出假设、"开更多检查"、尝试一些补救措施、再次观察。
但有了 LLM,我们正在沿着这个方向走得更远更快。我们用它们来写代码,也用它们来诊断和治疗。已经有大量工程师生活在这样一个世界里:生产问题发生后的第一步是让 clanker 读日志、提出根因、主动提出 patch。结果 patch 通常被另一台机器捡起来审查,有时甚至没有任何人工监督就合并到了 main。
显然这很强大,我不能否认它听起来很诱人。但屈服于这个想法,特别是随着人类监督越来越少,意味着接受我们可能无法再以同样的方式理解整个系统。我们治疗它、监控它、稳定它,但我们不一定理解它。
我毫不怀疑对于某些软件来说,这没问题。不是每一行代码都值得人类作者身份,而且过去也可能写过更差的代码。
但我希望所有软件都这样写吗?
你无法完全退出
非常令人不安的是,选择退出这个全机器驱动的未来可能不是一个选项。
安全是最清晰的例子。即使你不用 loops 来构建你的软件,别人也会用 loops 来攻击你的软件。攻击者会持续运行机器,即使不是攻击者,安全研究人员也会,而其中一些自动化工作会产生大量噪音但也会发现真正的问题。信号和噪音都会以如此大的规模涌向你,以至于你几乎不得不也扔一台机器来处理。
Daniel Stenberg 关于 curl 的 summer of bliss 的帖子是一个很好的例子,展示了维护者已经承受的压力。据我所知,AI 在 curl 的核心开发中并没有扮演重要角色。但尽管如此,维护者还是被报告淹没了——其中大部分是 AI 生成的。
如果攻击者和报告者都在 loop,防御者最终也需要 loop 才能跟上。也许不是直接写 patch,也许只是用来 triage 和复现——但压力会增加。
竞争也是一样。有些团队会通过原始速度超越其他团队。有些项目会突然加速,因为一个小团队搞清楚了如何有效编排机器。有些 startup 可以用五个人做到过去需要五十个人的事。有些人可能会直接把一台机器放在一个 loop 里对着你的产品,告诉它"把它做得像那个一样"。而如果他们的用户很开心,这真的重要吗?
不是所有软件都会受到同等影响。有些领域会惩罚草率,要求信任和责任,但很多软件生活在一个原始速度、快速实验和大面积覆盖至关重要的世界里。
建立新的依赖
最可怕的部分是,我们以新的方式变得依赖于这些新机器。软件一直依赖工具。我还记得我不得不为编译器付费的时候。这些新工具让人回想起那些创造软件需要真实成本的日子。但现在不再是一次性付款了——它是一种持续的依赖。不只是对钱包的依赖,还有认知依赖。
如果一个代码库由 loops 产生、由 loops 审查、由 loops 打补丁、由 loops 维护,当你不再能访问同等级别的系统时会发生什么?当某些贸易限制剥夺了对最强模型的访问时?如果只是成本变得不可接受呢?如果你和你的团队只是丧失了不用机器理解代码的最后一点能力呢?
我们可能会创建出不仅人类难以维护、而且把机器参与作为其维护模型前提的代码库。这已经在发生了!不是在所有地方都发生,甚至可能不是以被视为有问题的方式在发生,但我们看到越来越多。人们越来越多地合并他们不能完全解释的代码。人们失去了创建 issue 报告或在聊天中讨论事情的能力,而不借助 clanker 增强或改写他们的消息。太多人越来越依赖机器来总结或提供上下文。我越来越多地遇到通过 LLM 这个中间人与我交流的人。
再说一次,也许这甚至不一定是错的,但它对我们做事的方式是一个巨大的改变。
未来的 Harness
我毫不怀疑这就是方向,但朝着这个方向走需要我们在所有地方都改善我们的工具,而不只是在 coding agent 里。
仅仅编排更多的 loops 是不够的。更好的变更可视化或编排或 agent 不会恢复我们的理解。要么我们需要找到巧妙的方法把人拉回 loop,让 loop 的变更长期可读,要么我们需要找到更好的方法来组合这些越来越复杂的系统。
这也是我对 Pi 的角色的想法在变化的地方。Pi 一直很谨慎,我认为这种谨慎是好的。我不希望一个每一次交互都变成不受控制的机器 swarm、做出我无法跟上的变更的未来。我不希望 Pi 为了赢得"软件自己写自己"的竞赛而变成一个不可维护的混乱,我也不希望 Pi 推广这类工程。但与此同时,Pi 是一个 harness,而 harness 正处在人们运行这些新型实验的中心。
编码任务的任务队列、agent 编排、子 agent、持久化 session 会变得越来越重要。即使是我们这些有保留意见、没有盲目拥抱 loops 的人,也必须要开始做这些实验了。因为我们需要理解如何让这个未来有边界、可生存。
控制 Loop
正如你从这篇文章中读到的,我对这个未来非常不安。不是因为恐惧,而是因为基于对这项技术至今的经验而产生的谨慎。
采用 harness loop 的想法意味着 harness 决定工作何时完成。在 agent loop 中,模型最终说"完成"然后我审查。即使在那之前,我通常也在沿途引导。我参与其中,我喜欢在学习中前行。在 harness 操作的 loop 中,我不确定我的角色到底是什么。甚至"完成"信号也失去了所有意义,只是变成了传递给另一台机器进行评判的信息。我的角色被简化为一个信使。
今天,我不喜欢我看到的那种用这种方式构建的系统产生的代码,我也不喜欢与太多用 AI 辅助构建的软件交互。Loop 很强大,但它越来越多地移除责任,至少在当下它非常鼓励我们向机器投降。
然而,我毫不怀疑这个 loop 化的未来就是我们的未来——尽管我目前对此感到反感。我已经看到惊人小的团队以不可能的速度在构建,我看到代码库正在变成越来越模糊和混乱的有机体,只能由更多机器来诊断。这些代码库同时既有用又混乱。
所以我想我开始接受一个事实:问题不是我们会不会 loop——显然我们会的。也许问题是:在一个 loops 的未来里,我们如何不放弃判断,如何在其中保留良好工程的原则,如何确保负责任的人能够继续监督,如何重新思考我们架构代码的方式以在其中保持清醒。
原文:Armin Ronacher, "The Coming Loop", 2026-06-23
链接:
#
AI# #
Loops# #
软件工程# #
反思#
显示更多
Peter Steinberger, the guy who built OpenClaw just shared his actual workflow:
"Each loop is so much faster now that I ship more than ever with way less effort."
19 minutes from the person who knows more about AI agents and loops than anyone else.
Watch it, then read the full guide on loops below.
显示更多
Anthropic工程师那句话真的绝了:
你不是该去提示Claude,你是该建一个能自己提示自己的系统。
说白了就是Loops
但大部分人搞反了
要么没记忆,每轮从头来;要么不分拆,
一个Agent扛所有
要么没刹车,睡一觉起来账单爆炸。
这三个坑,大多数踩了至少两个。
别再死磕怎么把一条prompt写得更长了,该学的是一套闭环:
有记忆、有分工、有验收标准。
没过就继续跑,过了立马停。
先看视频,然后把这套东西吃透,别等被信息淹了再翻。
不然你用的永远就是个高级聊天框。
显示更多