注册并分享邀请链接,可获得视频播放与邀请奖励。

Michael Guo (@Michaelzsguo) “OpenAI 推出了能够让Agent长时间连续运行的 /goal。不少人已经成功实践。 Peter Stein” — TopicDigg

Michael Guo 的个人资料封面
Michael Guo 的头像
Michael Guo
@Michaelzsguo
Building AI agents and AI-native orgs. Demystifying AI in practice. EN/中文
加入 January 2022
395 正在关注    1.8K 粉丝
OpenAI 推出了能够让Agent长时间连续运行的 /goal。不少人已经成功实践。 Peter Steinberger 的一项 Goal 已经运行了 11 小时 31 分钟。@ynkzlk 也分享了一次真实案例:他的 Codex /goal 连续运行 6 小时 44 分钟,中间 laptop 关闭、暂停 5 个多小时,回来后 Codex 自动恢复执行,最终完成任务。他的博客详细介绍了他是怎么做到的。 第一,/goal 帮他做了什么? 他把一个 TypeScript monorepo 里的语音访谈系统交给 Codex,让它验证并修复多个端到端场景。整个任务跑了 6 小时 44 分钟,真正模型计算时间大约 41 分钟,累计输入约 680 万 tokens,cache hit rate 约 94%,最后状态是 TASK_COMPLETE。四个目标场景全部通过验证。 第二,/goal 能成功运行的关键是什么? 不是“让 agent 自己想办法”,而是 upfront contract 写得足够清楚。作者的结构化的prompt 大约 600 字,包含明确目标、先读哪些文件、工作规则、完成标准、以及不能走的歪路。尤其重要的是 done_when,也就是任务什么时候算完成。没有这个,agent 要么过早宣布完成,要么一直绕圈。 第三,什么任务不适合用 /goal? 不适合探索型任务,不适合成功标准不清楚的任务,不适合安全敏感路径,不适合依赖外部系统但你还没确认可行性的任务,也不适合十分钟就能交互完成的小任务。作者的判断很实用:如果一个任务本来就不需要跨越两个以上 session,那大概率不需要 /goal。 我觉得这才是 agentic engineering 的关键变化:人不再只是边看边改的 supervisor,而更像 architect。你先写清楚目标、边界、完成条件和失败模式,然后让 agent 长时间执行。Codex的/goal其实也是在考验我们能不能把一个模糊问题,变成一个 agent 可以独立执行、验证、收尾的工程 contract的能力。
显示更多
ran a codex session yesterday. closed the laptop at minute 57. came back 5.5 hours later. /goal had already resumed on its own. it injected its own developer message ("Continue working toward the active thread goal") and kept going. no re-prompt. no recovery steps. i opened the lid and it was four turns in. the full session: 6h 44min wall time, ~41 min actual model compute. 6.8M cumulative input tokens at 94% cache hit. final status TASK_COMPLETE. all four target end-to-end test scenarios passed. this is /goal in codex v0.128.0. it's the ralph loop, made first-class. native persistence, runtime continuation, tui controls. the goal survives sleeps, network drops, deliberate pauses. you don't have to be there. what surprised me: the prompt is the contract. mine was 600+ words. structured xml blocks, a reading list, working rules, anti-pattern fences, a done_when block. "/goal do thing" is not the interface. the prompt is. would love to hear what you think.
显示更多
0
14
170
23
转发到社区