注册并分享邀请链接,可获得视频播放与邀请奖励。

与「反思」相关的搜索结果

反思 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 反思 的内容
瑞·达利欧2026最新毕业演讲:别被金钱绑架,真正的成功是“有意义的工作与人际关系”。 全网高清精翻,强烈建议收藏反复观看! 这期视频为大家带来了桥水基金创始人瑞·达利欧(Ray Dalio)在2026年长岛大学的最新毕业典礼演讲。 这位掌管千亿资产的投资大佬,毫无保留地分享了他55年来的核心人生经验。 💡 核心干货提取: 1️⃣ 人生的三大阶段: 从学习与依赖,到工作与被依赖,最后走向自由与传授。 看看你现在正处于哪个阶段? 2️⃣ 终极成长公式: 痛苦 + 反思 = 进步。 达利欧曾因误判市场而破产,甚至要向父亲借钱交电费。 但他把每一次痛苦的现实当作解谜游戏,从中获取了价值连城的“原则”宝石。 3️⃣ 成功的真相: 千万不要陷入对金钱和地位的过度执念。 真正的成功,是拥有“有意义的工作和有意义的人际关系”。 无论你是正在探索“一人企业”模式的创业者,还是在打磨自己专业技能的超级个体,找到属于自己的热爱,并与同频的人一路同行,才是破局的关键。 视频有点长,但绝对值得你在这个周末静下心来,沉浸式地看上两三遍。
显示更多
0
18
429
140
转发到社区
我做了xlearnity , 最早的版本就是ai 生成课程, 然后拿出去卖。 这个想法最早形成于2023年, 但当时已经开始了一个AI 练口语的项目, 就把这个推迟到了2025年。 做着我就很怀疑这个产品,我感觉这个工具在批量的制造垃圾。 后来我就把ai 生成课程的权限收回来了。 目前是开放状态, 想做一个ai 的开放社区, 里面有几门课程, 绝大多数是免费的。 目前陷入停滞中。 我本人也在思考这个的真正的定位。 做一个从有用的到一个愿意付钱的产品, 是我在这个阶段反思最大的。 而这个问题需要前置, 就是在idea时就要去思考。 #buildinpulic#
显示更多
东京交易员用Sakana Fugu系统,6200美元直接干到30.4万美元 这不是又一个更大的模型,而是日本最新推出的多代理编排系统——Fugu。 v 它同时驾驭GPT-5、Claude和Gemini三巨头,却把它们全部打败。 协调器只带1万个参数,通过进化算法像指挥乐团一样调度最强模型。 每5分钟比特币二元期权,它自动跑完整闭环: Thinker:读K线、订单簿、新闻,制定计划 Worker:把计划转成具体指令(涨/跌+幅度) Verifier:投票决定是否执行(ACCEPT或REVISE) 只有Verifier通过,交易才会真正下单。被否决就自我反思、重新编排,甚至启动修正循环。 整个过程绝不偷看下一个K线,纯靠实时决策。 这才是当前最残酷的转变: 前沿优势已经从“模型规模”转向“模型编排”。 Fugu把这个方向直接跑在了所有实验室前面。 你觉得未来是更大模型赢,还是更聪明编排赢?
显示更多
字节对大厂 AI Coding 的反思,好真实。 字节技术副总裁洪定坤的分享,我来回看了好几遍,很有启发。 字节在 AI Coding 方面的实践还是很有代表性的,推荐所有做研发的同学都可以看看。应该会感同身受。 我看完记了一整页笔记,分享给大家。 我甚至觉得可以把这个分享理解为字节在 AI Coding 上的一些真实反思。 根据自己的理解,我把这个分享里对我有启发的几个判断展开来聊一聊。 其中会夹杂很多我自己的感触,想看原文的可以直接去找演讲全文。 反思一:AI 代码贡献率不该是 KPI AI Coding 基本上都已经逐步进入了各个公司的生产流程。 很多人都在说自己的业务有 90% 的代码是 AI 生成的,乍一听,感觉很恐怖。 但其实,AI 对研发的提效没有外界想象的那么高。 洪定坤举了 TRAE 团队的例子。TRAE 本身就是做 AI 工具的,所以这个团队对 AI Coding 的采用非常积极。 过去半年里,他们有 94% 的代码都是 AI 贡献的。但人均需求吞吐率只提升了 60%,也就是之前的 1.6 倍。 这就有疑惑了,AI 写代码的速度至少是人的 10 倍以上,如果 90% 以上的代码都是 AI 产出的,效率至少应该提升 5 倍或者 10 倍吧?为什么只提高了 1.6 倍? 字节得出来的结论是,单一的指标,比如 AI 代码占比,根本没有办法代表真实的生产力。 如果把 AI 代码贡献率当成 KPI,结果就是大家都去优化 AI 的生成量,而不是优化交付能力。 看起来 AI 用了很多,但系统的效率并没有真正变好。 那为什么 90% 的代码都是 AI 写的,人效才提了 1.6 倍?一个很重要的原因是,写代码只是整个研发流程的一个环节。 写之前要理解需求、写 Spec,写完之后要验证功能、提交发布,这些环节如果还是传统方式,光把写代码加速了,整体效率提不上去。 洪定坤把字节在这方面的尝试叫做系统化的 AI Development,核心意思就是 AI 不能只管写代码,得让它进入更多的研发环节,整条链路都跑通,效率才能真正上来。 前两天出去的时候还跟别人争论这件事。现在还有不少公司在追踪员工到底用了多少 Token,说白了,这是在追踪过程。 更应该关注的是,用了这个工具之后,从结果层面去看,交付到底有没有变得更快、更可靠。 一个团队天天说自己 AI 工具用得贼溜,消耗了多少 Token,但没有什么有效的产出,那这到底是好事还是坏事。我觉得这是一个值得每个管理者思考的新问题。 反思二:功能正确≠工程可用 Vibe Coding 的理想状态是就像聊天一样,用自然语言表达自己的需求,最后做出来想要的产品。 如果哪里不对,再用自然语言和 AI 沟通,让它修改。这是过去一年 Vibe Coding 风靡的思路。 对于不太复杂的应用,这种方式完全没问题。我自己做的一些项目基本上就是这个流程跑下来的。 但只要是做生产级的软件,无论公司大小,流程肯定不是这样。 因为公司里必然有老代码,有一套约束。怎么复用已有的组件,安全和权限怎么处理,性能怎么保证,还有兼容性、可维护性。 正经写过工程代码的人都清楚,Vibe Coding 描述的那个状态是比较理想化的,更适合做小项目和验证想法。 真正的程序员虽然也在 Vibe Coding,但流程跟理想状态不一样。 字节内部做了一个实验来验证这个判断:三个模型,三个 Agent 框架,两两组合成 9 种方案,针对同一个需求,每组跑 100 次,总共 900 次。 结果发现,AI 在功能正确率上表现还不错,所有组合都超过了 80%,也就是说,AI 把功能写对的能力已经过了及格线。 但无论哪个组合,生成代码的工程质量都不太好。比如 UI 不对,没有复用组件,性能有问题,结构不符合规范。 这些问题大家在用 AI 写代码的时候应该都碰到过。 现在所有上了牌桌的 Coding 模型,都已经过了 Opus 4.6 这个级别的临界点,模型可以自主写代码了。 这个时候影响 AI Coding 成败的绝对不是裸模型,而是裸模型加上 Harness 的能力。 这个判断本身不算新鲜。 但我最受触动的是字节对 Harness 的理解。 他们的反思是,整个行业好像还是把 Harness 等同于 Agent 框架,诸如用 single agent 还是 multi agent,包含哪些角色,角色之间怎么配合。 这些当然重要,但字节在实践中发现,真正决定 AI Coding 能不能落地的,反而是更基础、更工程化的东西。 洪定坤把它叫做基建。 比如上下文工程有没有做好,架构的约束够不够清晰,团队的知识能不能有效沉淀下来,过去的技术债有没有梳理清楚。 这些看起来不那么性感的工作,反而直接影响 AI Coding 的效果。 实验数据也验证了这一点。同样的模型和框架组合,把这些基建结合进去之后,功能正确率直接从 80% 提升到了接近 90%,工程质量得分,也从之前 40 到 60 分的不及格水平,普遍提升到了 80 分左右。 基建做不好的话,可能的后果是,Vibe Coding 感觉快了,但实际整体可能更慢。工程的债,迟早得还。 反思三:代码门槛下降之后,团队怎么协同 洪定坤分享里有一个例子让我印象很深刻。 产品经理有个需求,发现还得等研发排期,就说那我自己来吧,用 AI 三下五除二就把功能给实现了。 确实这个功能不复杂。做完之后产品经理把代码给到研发,说我已经把代码写完了,现在你只需要帮忙把功能上线就行。 研发一看,不行。你这代码能跑,但不符合上线的规范,有权限问题、安全问题。 产品经理就很委屈,你们没时间做这个需求,现在我都做完了又不让上线。可研发看到的其实是代码质量的问题。 所以这里面就有一个需要所有人正视的事情,虽然代码的生成门槛虽然下降了,这并不代表系统的复杂度也下降了。 真实的业务系统里,代码要放到已有的架构里,要跟已有的模块配合,还要考虑各种各样的问题。 绝对不是谁写出来就能直接上线的。不然肯定会出问题。 怎么让不同角色的人用同一套工具和规范做出符合要求的代码,这是接下来大家需要去解决的。 字节的思路是在内部尝试工具化。比如把内部实践直接产品化,沉淀到 TRAE 里面,开放给所有人。 其实说白了就是工具化。 我看朋友圈有好多大佬也都在转这篇文章,应该还是有挺多共鸣的。 我感觉这一次分享多少也是一些拨乱反正吧。因为过去一段时间确实有很多听起来很离谱的言论,有些人会疯狂地炫耀自己使用了多少 Token,会认为这就代表着 AI Native...... 强烈推荐大家看看原文。字节跳动的公众号就有。
显示更多
0
32
243
42
转发到社区
说实话 看完这次大表哥@cz_binance 的访谈 我最大的感受不是他讲了什么新观点 而是这大表哥进去了一趟出来以后明显没以前那么锋利了 没进去前CZ是什么格?从容自信 掌控感极强 对自身商业帝国极度自信 监管找上门 还是梭哈的劲 身上永远带着一种老子能干翻一切的劲儿 但这次访谈里 你能明显感觉到 他开始谈信任、谈反思、谈成长了 甚至开场第一句话就是:“我失去了很多信任” 这话如果放在认罪前 你很难想象会从大表哥嘴里说出来毕竟过去几年 他几乎就是加密行业最成功的那批人之一 结果呢?全球最大交易所创始人 身价几百亿美金 最后还是被美国监管狠狠干了一顿 不仅罚款还进去蹲了四个月 很多人觉得这是CZ人生最低谷 但我个人反而觉得 这四个月可能是他这些年学到东西最多的时候 因为在币圈待久了你会发现一个很现实的问题 赚100倍不难 难的是你赚了100倍以后 还觉得自己可能会犯错 绝大多数人到那个阶段 都会觉得自己是天选之子 CZ以前多少也有点这种味道 但现在没有了 他说自己对美国监管体系失去了信任 这其实一点都不意外 换谁进去蹲四个月还能满脸微笑感谢监管机构? 但有意思的是 他又转头开始夸美国宪法 说美国具备自我修复能力 很多人觉得这是场面话 我倒不这么看 我觉得他是真的看明白了一件事:你可以不喜欢规则 但你必须接受规则 尤其当美国还是全球资本市场老大的时候 币圈这些年最大的问题 从来不是技术 是规则一直没定下来 项目方不知道怎么玩 机构不知道怎么进 散户天天猜政策 交易所天天赌监管 整个行业活得跟开盲盒一样 所以为什么最近美国那边什么清晰法案、稳定币法案能炒那么猛 因为大家不是在赌法案 是在赌确定性 市场最怕的从来不是坏消息 而是不知道下一秒会不会来消息 至于AI和Crypto那部分 说实话 很多人现在已经快听吐了 什么AI+Crypto 什么Agent经济 什么链上智能体 一天能冒出八百个概念 但大表哥有句话我倒是认同AI和加密不是竞争关系 AI负责干活 Crypto负责结算 未来真有大量AI Agent自己赚钱、自己付钱、自己调用服务的时候,传统银行系统大概率是接不住的 你总不能让两个机器人跑去银行柜台开户吧 所以链上支付、稳定币、自动结算这些东西 未来确实有机会成为AI时代的底层基础设施 但问题也在这里 这个故事是真的 可大部分项目是假的 现在市场上99%的AI币 本质上跟AI没半毛钱关系 换个LOGO 接个API 套个Agent概念就开始融资 所以别把AI和Crypto融合理解成 买几个AI Meme等起飞 那大概率又是一轮韭菜教育 还有一个细节我印象特别深 他说监狱里狱警和狱友最爱问他的居然还是加密货币 这事听起来有点好笑 但仔细想想又特别真实 加密行业这些年天天被媒体骂 天天被监管打 天天被说归零 结果从华尔街到监狱 从总统候选人到出租车司机 所有人都知道比特币 这就很离谱 也是为什么我一直觉得 加密行业早就过了会不会消失的阶段 现在讨论的根本不是活不活 而是最后会以什么形式活下来 其实整场访谈最值得看的不是AI 不是监管 也不是监狱故事 而是CZ整个人状态变了 以前他像个创业者 现在更像个幸存者 以前他在证明自己能赢 现在他在思考赢了以后怎么办 很多人总喜欢问 CZ还看好加密吗 这不是废话吗?他几乎全部身家都还在BNB里 他肯定看好啊 但我觉得真正值得关注的不是他说什么 而是他做什么 经历监管铁拳、罚款、坐牢之后 依然没有离开这个行业 依然把主要财富放在加密资产里 这本身就已经是答案了 我的看法也很简单 2026年这个市场最大的问题从来不是大表哥 也不是币安 而是整个行业的流动性正在被AI和美股疯狂抽血 BTC越来越像机构资产 ETH在争夺金融基础设施的位置 山寨币越来越边缘化 所以未来加密一定不会消失 但是很多人熟悉的那个随便买个山寨十倍百倍的时代 可能真的回不来了 CZ说加密没有删除键 我认同 但是我还想说一句行业没有删除键 不代表你的仓位没有删除键
显示更多
0
20
28
2
转发到社区
作为一名 Web3 x AI 博主,看到 Apodex 这个产品时,感到非常惊喜! 原因很简单:它不像普通 AI 搜索工具,更像一个真正能参与链上投研流程的研究助手。 做 Web3 调研,最痛苦的从来不是“找不到信息”,而是信息太多、太碎、太冲突。 我之前研究一个 AI Agent 项目时,就遇到过很典型的情况: 项目方说自己用户增长很快,社区也在疯狂转发,KOL 都在说它是下一个叙事龙头。 但我去看链上数据时,发现新增地址很多都是短周期交互地址,行为路径高度相似,资金来源也集中在少数几个钱包。表面上看是用户增长,深挖下去更像是任务激励和刷量行为。 另一次做协议调研时,项目宣传自己收入增长很快,但我追踪合约交互和资金流后发现,部分收入可能来自内部循环或短期补贴,并不能证明产品真的形成了稳定需求。 这类问题非常折磨人。 因为官网、白皮书、KOL 观点、链上数据、GitHub 更新、社区反馈,每一类信息单独看都可能有道理,但放在一起却经常互相矛盾。 更麻烦的是,普通 AI 很容易把这些材料拼成一份看起来很专业的报告,但关键结论并没有真正验证。 这就是 Web3 投研里最危险的东西:虽然不是胡说,而是一种“伪正确” 报告结构完整、语气自信、引用很多,但真正决定项目价值的几个问题,比如用户是不是真实、收入能不能持续、token 是否有必要、链上行为是否支持叙事,往往没有被严格验证。 Apodex 最让我感兴趣的地方,正是它把这个问题作为核心来解决。它不是简单帮你生成一份报告,而是围绕复杂问题建立一套验证流程。 Apodex 的 Heavy-Duty 架构,更像一支研究团队:主 Agent 负责拆解问题,多个子 Agent 分别查资料、做对比、找证据、处理冲突,最后再由独立 verifier 检查结论是否真的站得住。 这和普通 Agent 最大的区别在于:它不是让同一个模型自己写、自己查、自己反思,而是把“生成”和“核查”两个环节拆开。 这对链上投研非常关键。 比如我研究一个项目时,真正需要的不是“这个项目怎么样”这种笼统回答,而是: 链上活跃是不是真实用户? 收入增长是否有可持续需求支撑? 项目叙事和实际产品是否一致? 代币机制是否真的捕获价值? 同赛道对比里,它的优势到底是技术、生态,还是单纯营销? 这些问题没有标准答案,只能靠多来源交叉验证。 Apodex 的价值就在这里:它会尽量让每个判断回到证据链,而不是停留在叙事层面。 它关注的不是“答案看起来是否专业”,而是“这个答案是否真的解决了原问题”。 我觉得这正是我在做项目研究最想 AI 拥有的能力。 因为未来的信息只会越来越多,AI 生成内容也会越来越多。真正稀缺的不是总结能力,而是验证能力;不是把公开信息重新包装一遍,而是从混乱信息里发现真正可信的信号。 所以 Apodex 的定位很明确: 它不是普通写作工具,也不是普通搜索工具,而是一个面向复杂问题的 verified deep research agent。 对 Web3 投研来说,它最适合用来做项目尽调、链上数据解释、赛道对比、叙事验证和风险排查。 如果说过去的 AI 更多是在帮我们生成内容,那么 Apodex 代表的方向,是让 AI 开始帮我们接近真相。 这也是我为什么认为 Apodex 值得大家的关注,不仅仅是 Web 3 投研,也适合所有需要跨来源验证、处理复杂证据链的高价值研究场景,比如项目尽调、金融分析、法律合规、医药文献综述和前沿科研探索。 官网: GitHub: Discord:
显示更多
0
19
28
5
转发到社区
每日反思 每晚10分钟写3点:今天哪儿不错、哪儿不行、明天改什么 别当日记写,这是反馈机制
The Coming Loop @mitsuhiko 即将到来的 Loop 与我们让渡的判断力! 在 Claude Code 构建者 Boris Cherny 和 OpenClaw 构建者 Peter Steinberger 几乎同时提出「Loop Engineering」的概念后,这篇对 Loop 的反思更值得认真阅读。 把 Loop 区分为两层循环 1. 内层是 agent loop(模型说"完成"即止) 2. 外层是 harness loop——由 harness 判定"完成"是否为真,否则续接 session、注入任务、转交他机,把任务生命延长到模型本会主动停下的点之外。 对 loop 的抗拒:循环放大了 LLM 代码的系统性缺陷 LLM 产出的代码本就过度防御、回避强不变量、用 fallback 兜底而非让坏状态不可表达(Karpathy 称其"恐惧异常")。 循环会放大这一倾向:每轮叠加一层局部防御,系统在看似更健壮的同时变得更难理解,越放手越严重。 作者甚至判断,当下放手式 harness 产出的代码反而不如去年秋天——因为模型现在能连续无人干预运行数十分钟。 loop 真正有效的领域及共性 移植(Bun 从 Zig 到 Rust、MiniJinja 到 Go)、性能探索、安全扫描、研究——共性是要么不产生新代码(只变换已有代码),要么产出无需长寿(POC、机械翻译)。 关键在于 harness 续接所需的信号不必客观二元,只需"有用到足以驱动下一轮"。 核心隐喻:从"机器"到"有机体" · 传统工程文化追求可剥开理解的确定性机器 · LLM 把我们推向"软件即有机体"——用机器写、用机器诊断施治、生产事故首步已是机器读日志提补丁并被另一机器 review 合入。 我们治疗、监控、稳定它,但未必理解它。 为何无法退出:安全与竞争的双重夹击 即便你不 loop,攻击者与安全研究者会持续对你的软件 loop(curl 维护者已被 AI 报告淹没,防御方也不得不 loop 来分流复现);竞争上,少数掌握机器编排的团队将以极小规模跑出过去几十人的速度。速度、试错、覆盖率至上的领域,循环几乎无可阻挡。 最深的隐忧:认知依赖 金钱依赖之外更危险的是认知依赖。 若代码库由循环产出、review、打补丁、维持生命,一旦失去同类系统访问权(贸易限制、成本失控、或团队彻底丧失不靠机器理解代码的能力)将如何? 这已在发生:人合并不完全能解释的代码,不借 LLM 就写不出 issue、聊不清问题。 本质:判断与责任的让渡 内层循环里人仍 steering、能学习;外层循环里"完成"信号失去意义,只被传递给另一台机器评判,人的角色退化为信使。 作者立场清醒:问题不再是"是否会 loop"(答案已是"会"),而是"在循环的未来里,如何不让渡判断力、保留工程规则、确保人能持续监督、重新思考代码架构以维持理智"。 他对 Pi 的态度亦如此——不抵制循环,但必须主动实验以理解如何让这个未来有界、可存活。
显示更多
自从《置身钉内》火了以后, 各大厂都开始出现《置身X内》😅 最近一篇小米内网员工长文《置身米内》遭下架,也引热议。 作者以24届校招生视角,揭开了小米光鲜背后的真实痛点。 文章将小米比作“项羽”,老板亲抓的汽车、芯片能打胜仗,但放手的业务便举步维艰,高度依赖个人英雄主义,人才梯队断层。 最扎心的是作者对“性价比”的反思: 1/ 薪资倒挂:华科计算机硕,小米开16k,同期阿里26k,优秀应届生纷纷毁约。 2/ 人才流失:深耕多年的校招骨干被优化,新鲜血液难留,研发稳定性受损。 3/ 加班内耗:日常交付挤占预研时间,科技公司却难有深耕技术的空间。 文章直言,早年性价比路线埋下隐患,做低端易,冲高端难;用“性价比员工”对标高薪竞品,无异于南辕北辙。 尽管小米汽车、芯片成绩斐然,但若人才激励与战略布局跟不上,这杆高端化的大旗,还能扛多久?值得深思。
显示更多
0
38
20
1
转发到社区
推荐这篇文章,Flask 作者 Armin Ronacher 写了这两天我看到最诚实的 loops 反思。之前两篇都在讲 loop 怎么搭、工程怎么落地,这篇问了一个没人敢问的问题:loop 写出来的代码你真的喜欢吗?如果你在用 AI 写代码,这篇可能会让你停下来想一下。 即将到来的 Loop 我不再给 Claude 写 prompt 了。我跑着一些 loop,它们负责给 Claude 写 prompt 并决定做什么。我的工作是写 loop。 — Boris Cherny 过去几个月,我看到越来越多的人在 coding agent 之上构建一些感觉上跟"直接用 coding agent"有本质区别的东西。模式到处都一样:任务被放进某种队列,机器捡起来、尝试、停下来,然后 harness 判断那是不是真的结束。 如果不是,harness 继续同一个 session、注入另一条消息、用修改过的 context 启动一个新的 session、或者把任务发给另一台机器。任务在模型自己本该说"我做完了"的那个点之后,继续活着。 我想这种 loop 想到自己都不好意思承认。 每个 coding agent 内部已经有一个 agent loop 了。模型调用工具、整合结果、再调用工具、读文件、改文件、跑测试、最终生成答案。那个 loop 我们已经相当熟悉了。另一种 loop 是 harness 级别的 loop:agent loop 之外的 loop。那个 loop 也不是新的。从 Claude Code 早期我们就一直在做各种版本,但那个 loop 在 agentic engineering 中越来越重要,最近几周已经开始主导 Twitter discourse。 我还不擅长这个 我目前的状况是:对于我真正在意的代码,我还没怎么成功用过这种工作方式——而这恰好是我相当大一部分代码。 部分原因是品味,部分原因是控制。我对我想要的代码样子设了一个很高的标准,我想理解我交付的代码。在压力下,或者跟另一个人讨论时,我想能够解释清楚系统做了什么,而不是先让一个 clanker 解释给我听。显然,这种"想理解代码"的愿望是否会在几年后依旧存在,是一个问题。但现在,我还没有越过"理解对我来说很重要"这个阶段。 基于这个愿望,对于没有我关注时写出来的代码,尤其是由 loops 产生的代码,我感觉有些东西缺失了。当前模型倾向于产生过于防御性、过于复杂、推理过于局部的代码。它们避免强不变量。它们添加 fallback 而不是让坏状态变得不可能。它们重复代码、发明糟糕的抽象、用更多 machinery 掩盖不清晰的设计。更糟的是:我几乎看不到这方面有什么进步。如果有什么变化的话,我觉得我们可能还在往错误的方向走。至少以我的品味,当前像 Claude Code with ultracode 这样的无人值守 harness 产出的代码,比去年秋天我们产出的还要差。因为 Claude Code 加 Fable 会连续不停地在一个问题上工作 30 分钟甚至更久,而过去这个过程会有更多人参与。 此外,一个众所周知的问题是模型倾向于观察到某个局部失败然后添加局部防御。Karpathy 提到他们"对异常感到极度恐惧"。在具有重要不变量的系统中,尤其是持久化数据格式或核心基础设施,正确的修复不是"处理每个异常情况"。正确的修复是让异常情况一开始就无法被表达或写入。但即便有大量人工引导,LLM 也不会自然地产生那种代码,而且即使代码自然地像那样产生了,它们仍然会试图处理现在已不可能的错误。 当你把这种行为放到 loops 后面时,你往往会放大它。如果每次迭代都添加一个小防御,系统会慢慢变得更不透明,同时表面看起来更健壮。你越放手,这种情况就越严重。当这样的工具交给没有清晰指导的初级开发者时,它还会教给他们非常糟糕的实践。因为如果你问他们为什么做所有这些,他们会令人信服地论证自己的做法。 Loop 在哪里有效 但与此同时,假装 loop 模式不管用也是不诚实的——它在某些领域已经好得惊人。 代码移植就是其中之一。已经有令人印象深刻的大规模自动化移植案例,包括报道中把 Bun 的部分代码从 Zig 移植到 Rust 的工作。我自己也成功用它把 MiniJinja 移植到了 Go。性能探索是另一个效果惊艳的场景。机器可以尝试实验、跑 benchmark、丢弃失败、继续搜索。安全扫描也自然适合,几乎任何类型的研究也一样:让系统探索一个复杂的问题空间然后汇报回来,不一定要提交持久化的代码。 这些场景的共性是:它们要么不生成新代码,而是转换已有代码;要么产生的代码有意不需要长期存活。它们要么产出 PoC 或想法,要么呈现发现,或者更像机械性的转换。 我相信,产出不需要长寿的 artifacts 的 loop,或者产出某种可清晰验证的机械性翻译的 loop,比 harness 机械性地衡量某个目标的一般能力更重要。很多成功的 loop 应用用另一个 LLM 作为 judge 或 orchestrator。机械性翻译场景可以用二元测试用例验证,但它也可以用 LLM 来评判! Claude Code 在创建完整的实验性工作流并执行它们方面,变得越来越好。当然,它生成的代码是 slop,但那更多是模型的问题,而不是 harness 不能很好地判断工作流中的某一步是否带来了净改进或完成。 Harness 只需要一些信号让它能继续。不需要客观或二元——只需要足够有用来驱动下一次迭代。 我非常喜欢那些能把我日常中的无聊部分拿走的 loops——做实验、测量、给我灵感。 软件作为有机体 另一方面,用同样的 loop 方法来写持久化的代码,我还不觉得舒服。我喜欢的比喻是:从软件作为确定性机器,到软件作为有机体。 我成为一名软件工程师的环境鼓励我理解机器。总有一层你可以剥开来加深理解。不展现确定性可观测行为的机器也许被接受,但一般不被认为是最优的。在软件架构上,我认为追求更多的确定性而不是更少是可取的。同样,理解代码的能力一直是一个不可否认的目标。实践中并不总是可能,但我们仍然以写出好的代码为荣,使得即使是新工程师也能通过巧妙的架构在复杂的代码库中导航。在设计良好的系统上,总有一些工程师知道不变量在哪里,哪些部分是承重的,哪些改动是安全的。理想情况下所有这些都是有良好文档的。在缺乏这种理解的地方,通常被认为是需要改进的事情。 显然,那个理想一直都很紧张。许多软件系统,尤其是非常成功的系统,在工程师能让它保持干净的时期过后,常常变得太大、太动态、太依赖外部服务,无法装进任何人的脑袋。即使没有 LLM,我们在诊断分布式系统时也已经有点像医生了:观察症状、提出假设、"开更多检查"、尝试一些补救措施、再次观察。 但有了 LLM,我们正在沿着这个方向走得更远更快。我们用它们来写代码,也用它们来诊断和治疗。已经有大量工程师生活在这样一个世界里:生产问题发生后的第一步是让 clanker 读日志、提出根因、主动提出 patch。结果 patch 通常被另一台机器捡起来审查,有时甚至没有任何人工监督就合并到了 main。 显然这很强大,我不能否认它听起来很诱人。但屈服于这个想法,特别是随着人类监督越来越少,意味着接受我们可能无法再以同样的方式理解整个系统。我们治疗它、监控它、稳定它,但我们不一定理解它。 我毫不怀疑对于某些软件来说,这没问题。不是每一行代码都值得人类作者身份,而且过去也可能写过更差的代码。 但我希望所有软件都这样写吗? 你无法完全退出 非常令人不安的是,选择退出这个全机器驱动的未来可能不是一个选项。 安全是最清晰的例子。即使你不用 loops 来构建你的软件,别人也会用 loops 来攻击你的软件。攻击者会持续运行机器,即使不是攻击者,安全研究人员也会,而其中一些自动化工作会产生大量噪音但也会发现真正的问题。信号和噪音都会以如此大的规模涌向你,以至于你几乎不得不也扔一台机器来处理。 Daniel Stenberg 关于 curl 的 summer of bliss 的帖子是一个很好的例子,展示了维护者已经承受的压力。据我所知,AI 在 curl 的核心开发中并没有扮演重要角色。但尽管如此,维护者还是被报告淹没了——其中大部分是 AI 生成的。 如果攻击者和报告者都在 loop,防御者最终也需要 loop 才能跟上。也许不是直接写 patch,也许只是用来 triage 和复现——但压力会增加。 竞争也是一样。有些团队会通过原始速度超越其他团队。有些项目会突然加速,因为一个小团队搞清楚了如何有效编排机器。有些 startup 可以用五个人做到过去需要五十个人的事。有些人可能会直接把一台机器放在一个 loop 里对着你的产品,告诉它"把它做得像那个一样"。而如果他们的用户很开心,这真的重要吗? 不是所有软件都会受到同等影响。有些领域会惩罚草率,要求信任和责任,但很多软件生活在一个原始速度、快速实验和大面积覆盖至关重要的世界里。 建立新的依赖 最可怕的部分是,我们以新的方式变得依赖于这些新机器。软件一直依赖工具。我还记得我不得不为编译器付费的时候。这些新工具让人回想起那些创造软件需要真实成本的日子。但现在不再是一次性付款了——它是一种持续的依赖。不只是对钱包的依赖,还有认知依赖。 如果一个代码库由 loops 产生、由 loops 审查、由 loops 打补丁、由 loops 维护,当你不再能访问同等级别的系统时会发生什么?当某些贸易限制剥夺了对最强模型的访问时?如果只是成本变得不可接受呢?如果你和你的团队只是丧失了不用机器理解代码的最后一点能力呢? 我们可能会创建出不仅人类难以维护、而且把机器参与作为其维护模型前提的代码库。这已经在发生了!不是在所有地方都发生,甚至可能不是以被视为有问题的方式在发生,但我们看到越来越多。人们越来越多地合并他们不能完全解释的代码。人们失去了创建 issue 报告或在聊天中讨论事情的能力,而不借助 clanker 增强或改写他们的消息。太多人越来越依赖机器来总结或提供上下文。我越来越多地遇到通过 LLM 这个中间人与我交流的人。 再说一次,也许这甚至不一定是错的,但它对我们做事的方式是一个巨大的改变。 未来的 Harness 我毫不怀疑这就是方向,但朝着这个方向走需要我们在所有地方都改善我们的工具,而不只是在 coding agent 里。 仅仅编排更多的 loops 是不够的。更好的变更可视化或编排或 agent 不会恢复我们的理解。要么我们需要找到巧妙的方法把人拉回 loop,让 loop 的变更长期可读,要么我们需要找到更好的方法来组合这些越来越复杂的系统。 这也是我对 Pi 的角色的想法在变化的地方。Pi 一直很谨慎,我认为这种谨慎是好的。我不希望一个每一次交互都变成不受控制的机器 swarm、做出我无法跟上的变更的未来。我不希望 Pi 为了赢得"软件自己写自己"的竞赛而变成一个不可维护的混乱,我也不希望 Pi 推广这类工程。但与此同时,Pi 是一个 harness,而 harness 正处在人们运行这些新型实验的中心。 编码任务的任务队列、agent 编排、子 agent、持久化 session 会变得越来越重要。即使是我们这些有保留意见、没有盲目拥抱 loops 的人,也必须要开始做这些实验了。因为我们需要理解如何让这个未来有边界、可生存。 控制 Loop 正如你从这篇文章中读到的,我对这个未来非常不安。不是因为恐惧,而是因为基于对这项技术至今的经验而产生的谨慎。 采用 harness loop 的想法意味着 harness 决定工作何时完成。在 agent loop 中,模型最终说"完成"然后我审查。即使在那之前,我通常也在沿途引导。我参与其中,我喜欢在学习中前行。在 harness 操作的 loop 中,我不确定我的角色到底是什么。甚至"完成"信号也失去了所有意义,只是变成了传递给另一台机器进行评判的信息。我的角色被简化为一个信使。 今天,我不喜欢我看到的那种用这种方式构建的系统产生的代码,我也不喜欢与太多用 AI 辅助构建的软件交互。Loop 很强大,但它越来越多地移除责任,至少在当下它非常鼓励我们向机器投降。 然而,我毫不怀疑这个 loop 化的未来就是我们的未来——尽管我目前对此感到反感。我已经看到惊人小的团队以不可能的速度在构建,我看到代码库正在变成越来越模糊和混乱的有机体,只能由更多机器来诊断。这些代码库同时既有用又混乱。 所以我想我开始接受一个事实:问题不是我们会不会 loop——显然我们会的。也许问题是:在一个 loops 的未来里,我们如何不放弃判断,如何在其中保留良好工程的原则,如何确保负责任的人能够继续监督,如何重新思考我们架构代码的方式以在其中保持清醒。 原文:Armin Ronacher, "The Coming Loop", 2026-06-23 链接: #AI# #Loops# #软件工程# #反思#
显示更多