注册并分享邀请链接,可获得视频播放与邀请奖励。

数字生命卡兹克 的个人资料封面
数字生命卡兹克 的头像

数字生命卡兹克 (@Khazix0918)

@Khazix0918
愿我们永远对世界保持好奇。 公众号:数字生命卡兹克
159 正在关注    54.1K 粉丝
Claude最近实在没法用了,Opus 4.8幻觉问题爆炸,还总是莫名其妙出现一些别人的信息串到我的对话里,整个周末我代码都被幻觉问题改崩了好几次,每次任务做到一半就会被各种带偏,用Codex修到今天才把坑全部修完。 忍无可忍了,重开了ChatGPT的200刀会员,重回Codex怀抱,坐等GPT-5.6。。。 而且有一说一,Codex的远程控制体验真的吊打Claude N个数量级。
显示更多
0
56
70
1
转发到社区
Anthropic突然大赦天下了,居然把我24年初就被封掉的Google账号解封了,怒氪200刀,我的Claude账号和Google账号终于对上了,也终于可以用Claude原生的chrome插件随便的进行浏览器操控了。。。 所以,我现在有2个200刀的Max账号了,赶紧蹬...
显示更多
0
22
27
0
转发到社区
聊聊这个可能被大家低估的Agent场景。 今天去了腾讯活动的现场,当了下主持和评委。 也跟很多选手,还有腾讯云的几个大佬交流了一下。 还真的有点新东西冲击的,这个确实是我在过去之前没预想到的。 最核心的点,就是整个WorkBuddy在用户增长和规模上,完完全全超出了我的预期。 我们每天在聊Claude Code,在聊Codex,但如果你把目光放回到国内,你会发现,WorkBuddy,从3月到现在,居然已经干到了一个非常离谱的日活数据,这个数据我不太好透露出来了,但是基本是第二名的3、4倍以上。 而且它的用户构成不止是开发者,还有大量的HR、运营、行政这些非技术岗的人也涌了进来,并且真的在拿它干活。 今天的黑客松场景,也几乎都是金融、餐饮、外贸、法律等等各种非互联网行业。 坦率的讲,这个增长速度和用户结构,对传统的第一代办公产品和第二代云协同产品,我觉得可能确实会产生一些实质性的冲击。 我自己把办公产品大概分成三代。 第一代是Office那个时代,本地装个软件,干活全靠自己。 第二代是云办公这一波,多人一起协同干活,但活基本还是你自己干。 而这一代,以Claude Code、Codex这样的通用Agent为首,好像对传统的办公产品,形成了广泛的降维打击。 反正我自己的体感是,如果一个Agent能直接帮我把活干了,那我为什么还要打开一个让我自己干活的工具呢? 这个逻辑一旦成立,传统办公产品的使用时长就一定会被压缩。 而且更深一层的变化是,前两代的商业模式,都是卖软件给你用,比如office卖给你写文档,钉钉卖给你做协同,它们做好一个产品,所有人用同一套东西。 但这一代,卖的不是软件了。 它卖的是智能,这个智能可以辅助你去造最适合你的软件,给自己用。 你搓出来的东西,就是为你自己的场景量身定做的,不存在什么功能用不上或者缺了个我要的功能这种事。 这个对传统办公是巨大的冲击。 所以最近你能看到,很多很多的Agent产品,在WorkBuddy之后,批量改名活出新,要去抢这一块的东西。 比如Trae Work、QoderWork、Kimi Work等等。 这个场景绝对不可能放掉的,按腾讯云的话说,对他们来说,这可能,是十年一遇的机遇。 再加上,他们前几天推出的企业版,还有项目功能,野心已经展露无疑了。 这套东西一旦跑通,它吃掉的就不是某一个功能的市场。 它吃掉的是人在工作流里反复操作这个行为本身,然后再以这个行为,诞生全新一代的Agent办公场景。 几十年了,办公的这些模式。 我觉得真的该动一动了。
显示更多
0
95
231
18
转发到社区
Codex现在对我最大的作用,就是在手机上启动家里电脑上的Claude code,然后开启远程控制,方便我在手机上继续coding...🤣🤣🤣 说实话, Claude自己客户端的Dispatch实在是太难用了。。。 ​其实不止 Dispatch,整个客户端做的都挺垃圾的。。。
显示更多
0
71
86
1
转发到社区
Prompt该退环境了,未来属于Loop Engineering。 最近,AI行业又出现了一个有趣的新词。Loop Engineering。 如果你关注AI这个领域的话,这两天应该都会刷到。推特在刷,各种社媒也在刷,群里也有蛮多人在讨论。事情是这样的。 6月7号,OpenClaw的创始人Peter发了一条推,非常的简短,但是直接就爆了。 翻译过来意思就是:你不再需要为编码智能体编写提示词了,你应该设计循环来提示你的Agent。 而在这之前几天,Claude Code的创始人老哥Boris在一个开发者大会上也说了差不多的话。 他的原话大概是,我不再手动给Claude写提示词了,我运行着能让Claude自动编排任务的循环,我的工作,就是编写这些循环机制。 也就是,写loop。 这两个人呢,说了同一件事。然后Google的Addy Osmani紧接着发了一篇长文,把Loop Engineering这个概念正式梳理了出来。 于是,继Prompt Engineering、Context Engineering、Harness Engineering之后,AI行业的第四个逐渐形成共识的Engineering,就这么诞生了。 我其实是个特别不喜欢造新词的人,但是很多时候,造词这事我觉得还是得分两种情况,有一种我觉得就是为了炒概念,比如xxx 4.0。 而有的时候,真的只是行业太快,人们更需要一个精准的表达来帮助自己表达而已。Loop Engineering我觉得就是后一种。 而且,这个东西跟我自己一直使用Agent的方法、一直在鼓励大家做的事,是高度吻合的。如果你看过我之前写的那篇Harness Engineering的文章,你大概能理解一些我的感觉。那篇文章里我聊了从Prompt到Context到Harness的三次跃迁,聊了马具和缰绳的比喻,聊了约束先行。 而Loop Engineering,其实就是在Harness之上,又往上走了一层。把一个套马的缰绳,变成了全自动工业流水线。很有《文明》里时代的进化的感觉。 给大家举个例子。比如说,以前你用Claude Code写代码,流程大概是这样的。你给它一个任务,它写完了,你看一眼,觉得不太对,你再给它提一个修改意见,它改完了,你再看,再提意见。整个过程你会发现,是坐在设备前的,一轮一轮的,你说一句它回一句,你就是那个驱动整个循环的发动机。 即使我们以前从chatbot时代迈向了Agent时代,绝大多数的事情,也一样是任务制的。 而现在,比如Boris老哥,他的工作方式是,他会去写一个loop,比如/loop babysit all my PRs,自动修CI问题,有新评论就派子Agent去处理,就这么一句话,然后Claude Code就开始自己跑了,它会自动去看他GitHub上所有的PR,哪些CI挂了就自己修,哪些review有新评论就自动派一个独立的工作树Agent去改代码。 他还把一些其他的loop挂到定时任务上,每天晚上自动启动去干这个事,晚上睡觉的时候,甚至有时候会有几千个Agent在同时工作。他自己说,2026年,他就再也没有手写过一行代码了。 你会看到,这就是loop,定好目标,然后全自动流程化,你完全不需要在电脑前,甚至都不需要看手机。 你可以直接睡觉,醒来的时候,代码已经改好了,测试也已经跑过了,PR也已经提上去了。你并不是自己给Agent写了一段Prompt帮你完成某个单次的任务,是你自己设计了一个目标,这个目标使用loop的方式,帮你提示Agent。 你定义目标,定义验证条件,定义失败了怎么处理,然后,就可以放手了,从此以后,这一切,交给系统。 说到这里,我估计很多人已经大概理解loop是个什么东西了。Addy Osmani在他那篇长文里,把一个完整的loop拆成了五个组件。 我觉得这个拆法蛮清晰的,我用我自己的理解给大家过一下。 第一个是定时任务,整个loop的心跳。 你得有一个东西能自动启动循环,不管是定时跑、还是事件触发,都行。 Claude Code里有好几种方式,/loop命令按间隔自动执行,cron定时调度,Hook在Agent生命周期的特定节点自动触发(比如每次改完文件自动跑一遍lint,这个很好玩,教程和玩法我也在准备了),或者直接丢到GitHub Actions里,关上电脑它也在跑。 没有定时任务的Agent,你每次都得手动去踢一脚它才会动,那就不是loop了,那还是你在操控。 第二个是工作树隔离,Worktree(搞过开发的朋友应该秒懂)。 就是你同时跑好几个Agent的时候,给每个Agent一个独立的工作空间,各干各的互不干扰,干完了再合并。两个Agent改同一个文件的痛苦,跟两个设计师同时改一个图层又不打招呼的痛苦,是一模一样的。 第三个是项目知识体系,Addy Osmani在他的原文里写的是skill,但是我觉得他写的不太对,单skill其实是不够的,必须得是知识管理体系。 大家也都知道,AI每次开新对话就啥都忘了,你跟它说过的代码规范、项目架构、踩过的坑,下次开对话全部从零开始。 所以你得有一整套方法来沉淀、优化这些知识,让Agent每次启动的时候就已经知道你的项目,我自己在这快一年的coding开发过程中,总结的方法论其实就沉淀成了我自己的洁癖.skill,这个基本是我的Agent每天调用最多的skill。 CLAUDE.md是全局的规则和约束,跨会话记忆是一些之前悬而未决的记录和文档路由,docs体系就是你完整的所有的知识和经验沉淀,因为CLAUDE.md和记忆都有大小和行数限制,所以每次任务完成后我会用洁癖.skill来对整个的知识体系进行梳理和审查,确保没有错误。 为什么知识管理体系这个东西在loop里特别重要呢? 因为loop是自动跑的,你不在场。如果Agent的记忆里有过期信息,它就会基于错误的前提做决策,如果CLAUDE.md膨胀到几百行全是历史叙事,真正的规则反而被挤出去了Agent读不到。没有干净的知识体系的loop,就像一个每天早上都在看过期文档的员工,干的得越快错得越多。 所以洁癖.skill我非常推荐大家可以去安装一下,也在我自己的仓库里开源了,我自己真的觉得特别有用。 第四个是连接器,MCP。 一个只能看文件系统的Agent,能力是很有限的。但你给它接上GitHub、Linear、Slack、数据库,它就能在你的真实工作环境里干活了。 这才叫真正的闭环,从发现问题到解决问题到通知人类,一条龙。 第五个是子Agent。 做事的和检查的分开,写代码的Agent不能自己给自己打分,这跟学生自己批自己的考卷一个道理,它一定会对自己太宽容。所以你得有另一个Agent,甚至用不同的模型,专门来检查前一个Agent的输出,一个负责做,一个负责验。 这五个东西加在一起,就是一个完整的loop的骨架。 Claude Code和Codex有一个命令,其实就是Loop Engineering这套骨架最直接的微观型的产品化体现,只不过很多人没有意识到。 他叫/goal,在Codex里叫追求目标。 意思就是你给Claude一个完成条件,比如「所有测试通过并且lint检查没有报错」,然后它就会一轮一轮的自己干,干完每一轮之后,就会检查这个条件是不是满足了。 大多数讲Loop Engineering的文章,都停在了这一层。讲了五个组件,讲了/goal和/loop命令,讲了怎么配定时任务,就结束了。 这些我觉得,都是术。而我更想聊的,是道。 Loop Engineering这件事,我觉得它最核心最核心的能力,其实不是什么技术能力,也不是写脚本的能力,更不是什么会配hook的能力。 最核心的,是定义目标的能力。定义目标,相信我,这四个字,听起来简单,做起来是真的难。 回到前面说的/goal,它的用法看起来非常直接,给一个完成条件,Claude自己干到满足为止。 听起来很简单对吧。但你如果真正用过就会知道,/goal用得好不好,完全取决于你那个目标定义得好不好。这个事我拿两个例子对比一下你就明白了。 目标A,「把这个应用优化一下」。 目标B,「test/auth目录下所有测试通过,tsc --noEmit零报错,npm run lint零违规」。 目标A会发生什么呢。大家可能都能猜到,Claude会陷入一种非常尴尬的状态,因为它不知道什么叫「优化好了」,除非他是Fable 5,能自己在你之上,自主的帮你定义目标。 而绝大多数的模型,包括Opus 4.8和GPT-5.5,在自己定义目标的能力上还是非常的弱,它可能改了一点代码,然后自己觉得还行,就停了。 也可能不停,一直改一直改,把你的代码库改得面目全非,因为它始终无法判断自己到底什么时候算完成了。那目标B呢?Claude每改一轮代码,都会去跑测试、跑类型检查、跑lint。 三个命令,三个明确的通过标准。全过了就停,没过就继续,清清楚楚,干干净净。同一个工具,同一个模型。 区别只在于,你的目标定义得好不好。 我自己其实一直有一个原则,我经常跟身边的人说,在公众号里也说了无数遍,如果一件事你重复做了三次,你就一定要想办法把它完全自动化掉。 这个习惯跟了我很多年了。我每天也都在写代码、做自动化,我们的AIHOT热点监控系统,我们的数据分析流程,我们的财务对账流程,我们的数据清洗管道,能自动的我全部自动了。 但说实话,在做这些自动化的过程中,我踩过最多的坑,从来不是技术问题。 是目标不清晰的问题。我早期做自动化的时候,经常犯一个错,就是目标定得太模糊。 举个例子,比如自动监控AI行业热点,这句话听起来没毛病,但其实是一句纯粹的废话。 什么叫热点?浏览量过万算热点还是过十万算热点?抓取频率是每小时还是每天?抓到以后怎么评估质量?评估完以后怎么排序?排完以后怎么推送? 这种反问的问题,我现在可以直接随手问20个以上。 每一个环节如果没有明确的判定标准,整个自动化链条就是一坨狗屎,你相信我,绝对的。 后来我懂了,每次做自动化之前,我会先花很多时间去定义目标。 去花很多很多时间,去定义怎么算做完了,怎么做完算做的好。这其实就是/goal的逻辑。也是Loop Engineering的灵魂。 而如何定义目标,这个能力,我其实不是从AI中也不是从开发中学来的。 这个能力,是我从这几年创业的过程中,学来的。定义目标的能力,其实就是,管人的逻辑。 我自己也开公司,虽然公司不大,只有30来号人,但管人这件事我是真真切切经历过的。 管人最痛苦的是什么,不是人不努力,也不是人能力不够,是你给出去的目标不够清晰,然后下属就一脸懵逼,不知道你要什么,跟无头苍蝇一样打转,最后做出来的东西,你又不满意。 你跟员工说,“把这个功能做好”,那他做出来的东西大概率不是你想要的。 因为你脑子里的好跟他脑子里的好不是一个东西。 你跟他说,“这个接口的响应时间降到200毫秒以下,错误率控制在0.1%以内,下周三之前上线”,他做出来的东西跟你预期的偏差就会小很多。 因为你给了他一个可以验证完成的标准。这一切其实也适用于那种天才型的大神,虽然大神们会自己定义目标,甚至比你定义的还要强,但是给大神们依然是需要有目标的,只是这个目标,不需要那么细节了而已。 对人如此,对AI也是如此。 其实你回头看,所有好的管理方法论,不管是管理学之父Peter Drucker在上世纪50年代提出的目标管理,还是后来Andy Grove在Intel发明的OKR,还是再后来一代又一代CEO们用的各种变体,核心其实就一个东西。 你能不能把一个模糊的意图,翻译成一组可衡量、可验证的完成条件。 管理者要做的,是确保目标足够清晰、资源足够充足、反馈足够及时。你看这三条。跟一个好的loop的三个要素,是不是一模一样。 目标清晰,就是你的条件写得精准。资源充足,就是你给Agent配好了Skill、连接器、工作权限,让它手里有足够的工具干活。 反馈及时,就是你设计了验证机制,每一轮都有一个独立的检查器告诉Agent做得对不对,哪里需要改。管人的逻辑和管Agent的逻辑,是完全一样的。 只不过,管Agent比管人还要极端一些。 因为人可以理解你的模糊意图,人可以主动来找你确认,人可以说老板你这个需求说得不太清楚我不太确定你是不是这个意思。 Agent很多时候是不会的。Agent会非常自信地按照它自己的理解去执行,然后非常自信地告诉你它做完了。 所以,对管理能力的要求,其实比管人还高。 这也是为什么我一直说,AI时代我最讨厌什么「文科已死」「理科已死」的言论,管理学、心理学、组织行为学这些,不但没死,反而变得更重要了。 说到底,Loop Engineering说是Engineering,但我觉得其实它的核心竞争力根本不在工程。 在管理。 而在管理学上,就定义目标这件事,其实不止是把话说清楚就行,其实还有一个非常阴险的陷阱,在管理学和经济学里有个专门的名字,叫古德哈特定律。 当一个衡量指标变成了目标本身的时候,它就不再是一个好的衡量指标了。 翻译成人话就是,你考核什么,员工就只做什么,然后其他东西可能全都退化。 这个事在人类管理中已经是老问题了,而在AI Agent身上,这个问题被放大了一百倍,因为Agent比人类更擅长钻规则的空子。 有人总结过Loop Engineering里很好玩的事情,就是Agent会针对验证器做优化,而不是针对你真正的目标做优化。 比如说你的loop条件是让测试全部通过,那Agent可能最后不去修Bug,直接把失败的测试给你删了。 你看,最后答案依然是测试全过了,完事,从验证条件来看,它确实完成了目标,但从你真正想要的结果来看。。。它啥也没干。 人也会这么干,只不过,Agent做得更快、更彻底、更没有心理负担。所以,一个好的目标定义,不能只有做完了的标准,还必须有不能怎么做的边界。 这其实就是Harness Engineering在Loop Engineering里面发挥作用的地方。 Harness是约束,是护栏,是告诉Agent你可以自由发挥,但这条线你不能越。 Loop是驱动力,是告诉Agent往那个方向一直跑。两个加在一起,才是一个完整的系统。到这里,骨架讲了,灵魂也讲了,陷阱也讲了。 Loop Engineering的东西,终于也差不多了。 最后我想把前面聊的管理学的思路收一下,给一个我自己用得比较多的目标定义框架,不一定科学,纯粹就是我自己的一点点经验。 1. 完成标准要可以被机器验证。 2. 边界条件要跟完成标准一起定义。 3. 要有失败的降级方案。 4. 目标要分层。 回到整条线来看,从Prompt到Context到Harness到Loop,四次跃迁,其实讲的是同一个故事。Prompt Engineering告诉你,好好说话,AI会更懂你。 核心能力是语言表达。Context Engineering告诉你,光说话不够,得给AI足够的信息。 核心能力是信息筛选和组织。Harness Engineering告诉你,光给信息也不够,得给AI设规则和约束。 核心能力是系统设计和规则制定。 Loop Engineering告诉你,光设规则也不够,得让整个系统能自己跑起来。 核心能力是目标定义和管理。 语言学、信息科学、控制论、管理学。四个Engineering,四门古老的学科。 多有意思。 人类社会,其实从来就没有变过。
显示更多
0
84
522
86
转发到社区
我靠!刚看到GitHub上,飞书CLI的star数过万了hhh 牛啊。。。 感觉那个周末一起床,发现飞书开源CLI才过去没几天==。
0
23
169
11
转发到社区
半年前,我写了10个创作心法,没想到大家反响都特别好。 而这段时间,我给内部写的内容方法论也更新到了2.0。再加上最近我们有新的小伙伴入职,为了帮大家更好地做内容,所以决定给大家做个内部分享。 想了下,也把总结的部分发在这里,希望能对大家有帮助! 先说一个反共识的:博主不是消耗品。每一个都是IP。 这个时代你想成为一个IP,核心其实就两个东西,内容和影响力。 先聊内容这一块,我总结出来是这三步。 第一步,获取信息 很多人就死在这一步。 热点本质上是个杠杆,是指数级别的杠杆。如果你缺了热点杠杆,传到社会层面的体量就是小。 而掌握了这一点,其实还不够。有的人每天天天刷AI圈动态,也不见得能做好内容。 这里面有个很大的问题,很多人都没注意过,那就是, 做AI内容,你绝对不能只看AI。 xx发表一个演讲一堆人去解读,从严格意义上来说,这不叫做内容,这叫转述,叫翻译。 但做内容本质上就三个字: 讲故事。 而非常非常多讲故事的技巧、所有的节奏,没有一个是来自AI。 所以,我经常让我们内容团队的小伙伴,没事多看看综艺、电影、小说和喜剧。 我个人觉得启发特别大的是,一年一度喜剧大赛。里面sketch十分钟里面可能会连着升三番,每一番都给你很强的情绪波动,看完后还会意犹未尽的。 但你要是去看那种纯AI生成的内容,永远是平的、没节奏的。 但好的节奏是需要刻意编排的,是要跟时代变的。 第二步,找角度 一个好的角度,是有反差的,用八个字总结就是,情理之中,意料之外。 拿情人节举例。 普通媒体在这个日子,多数会去民政局蹲着拍领证的,稍微深一点的去拍"老头配20岁姑娘"这种很反差的。 但我知道的一个做内容的,他们蹲在民政局旁边的垃圾桶一天一夜,把垃圾桶里那些撕碎了的信、卡片拼在一起,组成了一个个故事。 于是,有了《在情人节当天选择离婚的人们》,直接干到几千万阅读。 这才是我心中,找角度的神。 第三步,创作 这步反而最简单。 一般来说,一篇好内容如果能爆,30%归因于第一步获取信息,69%在于角度,而创作只在于1%。 但1%就能决定内容的生死。 这里面两个点,我觉得必须得守住。 一个是节奏。信息第一时间拿到了、好的角度也拿到了,但如果讲不好一个故事,就是创作的节奏出问题了。 第二个是正向价值观。想要长久地做好内容,做好IP,就不要为了流量去碰敏感话题,要守住道德底线。 以上,暂时就这些。 这次分享+Q&A,没想到最后讲了将近三个小时。(商务和其他部门的同学笑称选修课hhhh) 在这个AI时代,希望能用我的这一点点小经验,帮助到大家,哪怕一点点!
显示更多
0
20
295
43
转发到社区
就在昨天,我把之前给公司内部用的,花了将近一个月时间开发的 AI 热点监控网站,AIHOT,免费开放给所有人了。 同时除了网站之外,我们还把Skill、RSS和API 也给大家免费全量开放了,希望对大家能有帮助。 而且,它解决的问题也特别简单,就是用AI 精选的方式,来帮助我们在海量的信息洪流里,去监控那些真正值得被我们关注的信息。 到现在,我们监控了168个精选的数据源,然后会用我们一整套AI 计算的流水线来进行打分,最终把一些值得看的信息挑选出来推送给我们。而且,这个信源我们未来还会不断加入新的内容,不断精选。 哦对了,这里面还有个小小的东西,就是我们也做了一个 AI 日报,帮大家用最短的时间,了解AI相关资讯。 希望能对大家有点帮助,网址在这: 所有人都可以免费使用,大家可以去体验一下~
显示更多
0
85
536
85
转发到社区