搜索 AgentLoop 相关的推文与用户

11hours ago

给大家带来 Flash 系列模型横评! 各个厂商除了旗舰级别模型, 也都有Flash级别的模型, 而这些模型的定位主要都是多智能体系统的驱动模型和RAG系统的驱动模型. 那么现有这些Flash模型应该怎么选? 给大家带来本篇评测! 本次主要从 Agent Loop 迭代能力, Agent 能力, 前端, 后端, 空间理解, 美学, 性价比等多个角度评测了 Gemini-3.5-Flash, Step-3.7-Flash, DeepSeek-V4-Flash 这三个模型. 从测试来看, Gemini-3.5-Flash 更适合干"漂亮活", 比如前端页面, 建模等. 而 Step-3.7-Flash 则极具性价比, 在Agent测试中取得了比旗舰模型还要高的Token效率(用最少的token干最多的事情). 所以特别适合用在Agent框架中(比如OpenClaw或者Hermes), 或者复杂的Agent系统中用来做驱动模型. DeepSeek-V4-Flash 则后端能力很不错, 很适合用来写脚本, 甚至给服务器安装一个 DeepSeek-V4-Flash 驱动的 ClaudeCode, 用来 AI-Ops. #flash模型# #step37flash# #deepseekv4flash# #gemini35flash# #AgentLoop#

显示更多

0

10

0

转发到社区

kabikabi@jakevin7

2026.06.25 06:43

做 Agent 有个不成文的默认假设：tool result 很重要，模型要看完原文才能继续推理。最近发现这个假设可能是错的。 ---------------------------------- 欢迎 star ---------------------------------- 在 maka 里，我们对 tool result 做了激进的 prune——把工具返回的原始数据大幅裁剪，只保留关键摘要，然后跑了完整的任务对比。结论让人意外：推理质量几乎没有变化，近乎无损压缩。这是为什么？我有几个可能的解释：第一，信息已经被蒸馏进 Assistant Message Agent loop 的上下文结构是： System Prompt → User → Assistant → Tool Use → Tool Result → Assistant → ... 每次 tool result 之后，模型都会输出一段 Assistant Message 来表达它的理解和下一步决策。这是一次语义蒸馏——原始数据被压缩成了推理摘要。后续轮次的模型，更多是在跟"它自己的理解"对话，而不是在跟 tool result 原文对话。prune 掉原文，相当于删掉了一份已经被读取并转化的档案——信息早就走了，外壳还在而已。第二，Attention 在长上下文里本来就稀疏 "Lost in the Middle" 那篇研究证明：Transformer 对长上下文中间段的注意力权重会大幅衰减，模型更关注开头（system prompt）和最近几轮。 Tool result 通常在上下文中间位置，而且信息密度极低（500 行代码、终端输出、冗余 JSON）。模型本来就没在认真"读"它。prune 只是把这部分被隐式忽略的内容显式删掉。第三，决策点已经过去模型调用工具是因为当时需要那个信息。但 5 轮之后，那个 tool result 早已不是边际信息了——核心内容已被消化进后续推理链，保留原文是"存档"，不是"决策输入"。实测数据：对同一个任务（MIPS interpreter），Maka 的总 token 消耗只有 OpenCode 的 38%，但 output token 是它的 2.7 倍。这个差距背后，有 DeepSeek cache 命中率 95% 的贡献，也有 tool result prune 的贡献。两者合力，长程任务的 token 经济性出现了量级跃升。对 Agent 工程的启示：context 里最占体积的部分，不一定是最重要的部分。与其把精力放在"怎么让 tool result 完整进上下文"，不如放在"模型读完之后的 reasoning 质量"上。信息的真正载体不是原文，是理解。

显示更多

0

25

61

3

转发到社区

meng shao@shao__meng

2026.06.25 00:47

The Coming Loop @mitsuhiko 即将到来的 Loop 与我们让渡的判断力！在 Claude Code 构建者 Boris Cherny 和 OpenClaw 构建者 Peter Steinberger 几乎同时提出「Loop Engineering」的概念后，这篇对 Loop 的反思更值得认真阅读。把 Loop 区分为两层循环 1. 内层是 agent loop（模型说"完成"即止） 2. 外层是 harness loop——由 harness 判定"完成"是否为真，否则续接 session、注入任务、转交他机，把任务生命延长到模型本会主动停下的点之外。对 loop 的抗拒：循环放大了 LLM 代码的系统性缺陷 LLM 产出的代码本就过度防御、回避强不变量、用 fallback 兜底而非让坏状态不可表达（Karpathy 称其"恐惧异常"）。循环会放大这一倾向：每轮叠加一层局部防御，系统在看似更健壮的同时变得更难理解，越放手越严重。作者甚至判断，当下放手式 harness 产出的代码反而不如去年秋天——因为模型现在能连续无人干预运行数十分钟。 loop 真正有效的领域及共性移植（Bun 从 Zig 到 Rust、MiniJinja 到 Go）、性能探索、安全扫描、研究——共性是要么不产生新代码（只变换已有代码），要么产出无需长寿（POC、机械翻译）。关键在于 harness 续接所需的信号不必客观二元，只需"有用到足以驱动下一轮"。核心隐喻：从"机器"到"有机体" · 传统工程文化追求可剥开理解的确定性机器 · LLM 把我们推向"软件即有机体"——用机器写、用机器诊断施治、生产事故首步已是机器读日志提补丁并被另一机器 review 合入。我们治疗、监控、稳定它，但未必理解它。为何无法退出：安全与竞争的双重夹击即便你不 loop，攻击者与安全研究者会持续对你的软件 loop（curl 维护者已被 AI 报告淹没，防御方也不得不 loop 来分流复现）；竞争上，少数掌握机器编排的团队将以极小规模跑出过去几十人的速度。速度、试错、覆盖率至上的领域，循环几乎无可阻挡。最深的隐忧：认知依赖金钱依赖之外更危险的是认知依赖。若代码库由循环产出、review、打补丁、维持生命，一旦失去同类系统访问权（贸易限制、成本失控、或团队彻底丧失不靠机器理解代码的能力）将如何？这已在发生：人合并不完全能解释的代码，不借 LLM 就写不出 issue、聊不清问题。本质：判断与责任的让渡内层循环里人仍 steering、能学习；外层循环里"完成"信号失去意义，只被传递给另一台机器评判，人的角色退化为信使。作者立场清醒：问题不再是"是否会 loop"（答案已是"会"），而是"在循环的未来里，如何不让渡判断力、保留工程规则、确保人能持续监督、重新思考代码架构以维持理智"。他对 Pi 的态度亦如此——不抵制循环，但必须主动实验以理解如何让这个未来有界、可存活。

显示更多

0

1

16

5

转发到社区

yibie@yibie

2026.06.24 05:00

推荐这篇文章，Flask 作者 Armin Ronacher 写了这两天我看到最诚实的 loops 反思。之前两篇都在讲 loop 怎么搭、工程怎么落地，这篇问了一个没人敢问的问题：loop 写出来的代码你真的喜欢吗？如果你在用 AI 写代码，这篇可能会让你停下来想一下。即将到来的 Loop 我不再给 Claude 写 prompt 了。我跑着一些 loop，它们负责给 Claude 写 prompt 并决定做什么。我的工作是写 loop。 — Boris Cherny 过去几个月，我看到越来越多的人在 coding agent 之上构建一些感觉上跟"直接用 coding agent"有本质区别的东西。模式到处都一样：任务被放进某种队列，机器捡起来、尝试、停下来，然后 harness 判断那是不是真的结束。如果不是，harness 继续同一个 session、注入另一条消息、用修改过的 context 启动一个新的 session、或者把任务发给另一台机器。任务在模型自己本该说"我做完了"的那个点之后，继续活着。我想这种 loop 想到自己都不好意思承认。每个 coding agent 内部已经有一个 agent loop 了。模型调用工具、整合结果、再调用工具、读文件、改文件、跑测试、最终生成答案。那个 loop 我们已经相当熟悉了。另一种 loop 是 harness 级别的 loop：agent loop 之外的 loop。那个 loop 也不是新的。从 Claude Code 早期我们就一直在做各种版本，但那个 loop 在 agentic engineering 中越来越重要，最近几周已经开始主导 Twitter discourse。我还不擅长这个我目前的状况是：对于我真正在意的代码，我还没怎么成功用过这种工作方式——而这恰好是我相当大一部分代码。部分原因是品味，部分原因是控制。我对我想要的代码样子设了一个很高的标准，我想理解我交付的代码。在压力下，或者跟另一个人讨论时，我想能够解释清楚系统做了什么，而不是先让一个 clanker 解释给我听。显然，这种"想理解代码"的愿望是否会在几年后依旧存在，是一个问题。但现在，我还没有越过"理解对我来说很重要"这个阶段。基于这个愿望，对于没有我关注时写出来的代码，尤其是由 loops 产生的代码，我感觉有些东西缺失了。当前模型倾向于产生过于防御性、过于复杂、推理过于局部的代码。它们避免强不变量。它们添加 fallback 而不是让坏状态变得不可能。它们重复代码、发明糟糕的抽象、用更多 machinery 掩盖不清晰的设计。更糟的是：我几乎看不到这方面有什么进步。如果有什么变化的话，我觉得我们可能还在往错误的方向走。至少以我的品味，当前像 Claude Code with ultracode 这样的无人值守 harness 产出的代码，比去年秋天我们产出的还要差。因为 Claude Code 加 Fable 会连续不停地在一个问题上工作 30 分钟甚至更久，而过去这个过程会有更多人参与。此外，一个众所周知的问题是模型倾向于观察到某个局部失败然后添加局部防御。Karpathy 提到他们"对异常感到极度恐惧"。在具有重要不变量的系统中，尤其是持久化数据格式或核心基础设施，正确的修复不是"处理每个异常情况"。正确的修复是让异常情况一开始就无法被表达或写入。但即便有大量人工引导，LLM 也不会自然地产生那种代码，而且即使代码自然地像那样产生了，它们仍然会试图处理现在已不可能的错误。当你把这种行为放到 loops 后面时，你往往会放大它。如果每次迭代都添加一个小防御，系统会慢慢变得更不透明，同时表面看起来更健壮。你越放手，这种情况就越严重。当这样的工具交给没有清晰指导的初级开发者时，它还会教给他们非常糟糕的实践。因为如果你问他们为什么做所有这些，他们会令人信服地论证自己的做法。 Loop 在哪里有效但与此同时，假装 loop 模式不管用也是不诚实的——它在某些领域已经好得惊人。代码移植就是其中之一。已经有令人印象深刻的大规模自动化移植案例，包括报道中把 Bun 的部分代码从 Zig 移植到 Rust 的工作。我自己也成功用它把 MiniJinja 移植到了 Go。性能探索是另一个效果惊艳的场景。机器可以尝试实验、跑 benchmark、丢弃失败、继续搜索。安全扫描也自然适合，几乎任何类型的研究也一样：让系统探索一个复杂的问题空间然后汇报回来，不一定要提交持久化的代码。这些场景的共性是：它们要么不生成新代码，而是转换已有代码；要么产生的代码有意不需要长期存活。它们要么产出 PoC 或想法，要么呈现发现，或者更像机械性的转换。我相信，产出不需要长寿的 artifacts 的 loop，或者产出某种可清晰验证的机械性翻译的 loop，比 harness 机械性地衡量某个目标的一般能力更重要。很多成功的 loop 应用用另一个 LLM 作为 judge 或 orchestrator。机械性翻译场景可以用二元测试用例验证，但它也可以用 LLM 来评判！ Claude Code 在创建完整的实验性工作流并执行它们方面，变得越来越好。当然，它生成的代码是 slop，但那更多是模型的问题，而不是 harness 不能很好地判断工作流中的某一步是否带来了净改进或完成。 Harness 只需要一些信号让它能继续。不需要客观或二元——只需要足够有用来驱动下一次迭代。我非常喜欢那些能把我日常中的无聊部分拿走的 loops——做实验、测量、给我灵感。软件作为有机体另一方面，用同样的 loop 方法来写持久化的代码，我还不觉得舒服。我喜欢的比喻是：从软件作为确定性机器，到软件作为有机体。我成为一名软件工程师的环境鼓励我理解机器。总有一层你可以剥开来加深理解。不展现确定性可观测行为的机器也许被接受，但一般不被认为是最优的。在软件架构上，我认为追求更多的确定性而不是更少是可取的。同样，理解代码的能力一直是一个不可否认的目标。实践中并不总是可能，但我们仍然以写出好的代码为荣，使得即使是新工程师也能通过巧妙的架构在复杂的代码库中导航。在设计良好的系统上，总有一些工程师知道不变量在哪里，哪些部分是承重的，哪些改动是安全的。理想情况下所有这些都是有良好文档的。在缺乏这种理解的地方，通常被认为是需要改进的事情。显然，那个理想一直都很紧张。许多软件系统，尤其是非常成功的系统，在工程师能让它保持干净的时期过后，常常变得太大、太动态、太依赖外部服务，无法装进任何人的脑袋。即使没有 LLM，我们在诊断分布式系统时也已经有点像医生了：观察症状、提出假设、"开更多检查"、尝试一些补救措施、再次观察。但有了 LLM，我们正在沿着这个方向走得更远更快。我们用它们来写代码，也用它们来诊断和治疗。已经有大量工程师生活在这样一个世界里：生产问题发生后的第一步是让 clanker 读日志、提出根因、主动提出 patch。结果 patch 通常被另一台机器捡起来审查，有时甚至没有任何人工监督就合并到了 main。显然这很强大，我不能否认它听起来很诱人。但屈服于这个想法，特别是随着人类监督越来越少，意味着接受我们可能无法再以同样的方式理解整个系统。我们治疗它、监控它、稳定它，但我们不一定理解它。我毫不怀疑对于某些软件来说，这没问题。不是每一行代码都值得人类作者身份，而且过去也可能写过更差的代码。但我希望所有软件都这样写吗？你无法完全退出非常令人不安的是，选择退出这个全机器驱动的未来可能不是一个选项。安全是最清晰的例子。即使你不用 loops 来构建你的软件，别人也会用 loops 来攻击你的软件。攻击者会持续运行机器，即使不是攻击者，安全研究人员也会，而其中一些自动化工作会产生大量噪音但也会发现真正的问题。信号和噪音都会以如此大的规模涌向你，以至于你几乎不得不也扔一台机器来处理。 Daniel Stenberg 关于 curl 的 summer of bliss 的帖子是一个很好的例子，展示了维护者已经承受的压力。据我所知，AI 在 curl 的核心开发中并没有扮演重要角色。但尽管如此，维护者还是被报告淹没了——其中大部分是 AI 生成的。如果攻击者和报告者都在 loop，防御者最终也需要 loop 才能跟上。也许不是直接写 patch，也许只是用来 triage 和复现——但压力会增加。竞争也是一样。有些团队会通过原始速度超越其他团队。有些项目会突然加速，因为一个小团队搞清楚了如何有效编排机器。有些 startup 可以用五个人做到过去需要五十个人的事。有些人可能会直接把一台机器放在一个 loop 里对着你的产品，告诉它"把它做得像那个一样"。而如果他们的用户很开心，这真的重要吗？不是所有软件都会受到同等影响。有些领域会惩罚草率，要求信任和责任，但很多软件生活在一个原始速度、快速实验和大面积覆盖至关重要的世界里。建立新的依赖最可怕的部分是，我们以新的方式变得依赖于这些新机器。软件一直依赖工具。我还记得我不得不为编译器付费的时候。这些新工具让人回想起那些创造软件需要真实成本的日子。但现在不再是一次性付款了——它是一种持续的依赖。不只是对钱包的依赖，还有认知依赖。如果一个代码库由 loops 产生、由 loops 审查、由 loops 打补丁、由 loops 维护，当你不再能访问同等级别的系统时会发生什么？当某些贸易限制剥夺了对最强模型的访问时？如果只是成本变得不可接受呢？如果你和你的团队只是丧失了不用机器理解代码的最后一点能力呢？我们可能会创建出不仅人类难以维护、而且把机器参与作为其维护模型前提的代码库。这已经在发生了！不是在所有地方都发生，甚至可能不是以被视为有问题的方式在发生，但我们看到越来越多。人们越来越多地合并他们不能完全解释的代码。人们失去了创建 issue 报告或在聊天中讨论事情的能力，而不借助 clanker 增强或改写他们的消息。太多人越来越依赖机器来总结或提供上下文。我越来越多地遇到通过 LLM 这个中间人与我交流的人。再说一次，也许这甚至不一定是错的，但它对我们做事的方式是一个巨大的改变。未来的 Harness 我毫不怀疑这就是方向，但朝着这个方向走需要我们在所有地方都改善我们的工具，而不只是在 coding agent 里。仅仅编排更多的 loops 是不够的。更好的变更可视化或编排或 agent 不会恢复我们的理解。要么我们需要找到巧妙的方法把人拉回 loop，让 loop 的变更长期可读，要么我们需要找到更好的方法来组合这些越来越复杂的系统。这也是我对 Pi 的角色的想法在变化的地方。Pi 一直很谨慎，我认为这种谨慎是好的。我不希望一个每一次交互都变成不受控制的机器 swarm、做出我无法跟上的变更的未来。我不希望 Pi 为了赢得"软件自己写自己"的竞赛而变成一个不可维护的混乱，我也不希望 Pi 推广这类工程。但与此同时，Pi 是一个 harness，而 harness 正处在人们运行这些新型实验的中心。编码任务的任务队列、agent 编排、子 agent、持久化 session 会变得越来越重要。即使是我们这些有保留意见、没有盲目拥抱 loops 的人，也必须要开始做这些实验了。因为我们需要理解如何让这个未来有边界、可生存。控制 Loop 正如你从这篇文章中读到的，我对这个未来非常不安。不是因为恐惧，而是因为基于对这项技术至今的经验而产生的谨慎。采用 harness loop 的想法意味着 harness 决定工作何时完成。在 agent loop 中，模型最终说"完成"然后我审查。即使在那之前，我通常也在沿途引导。我参与其中，我喜欢在学习中前行。在 harness 操作的 loop 中，我不确定我的角色到底是什么。甚至"完成"信号也失去了所有意义，只是变成了传递给另一台机器进行评判的信息。我的角色被简化为一个信使。今天，我不喜欢我看到的那种用这种方式构建的系统产生的代码，我也不喜欢与太多用 AI 辅助构建的软件交互。Loop 很强大，但它越来越多地移除责任，至少在当下它非常鼓励我们向机器投降。然而，我毫不怀疑这个 loop 化的未来就是我们的未来——尽管我目前对此感到反感。我已经看到惊人小的团队以不可能的速度在构建，我看到代码库正在变成越来越模糊和混乱的有机体，只能由更多机器来诊断。这些代码库同时既有用又混乱。所以我想我开始接受一个事实：问题不是我们会不会 loop——显然我们会的。也许问题是：在一个 loops 的未来里，我们如何不放弃判断，如何在其中保留良好工程的原则，如何确保负责任的人能够继续监督，如何重新思考我们架构代码的方式以在其中保持清醒。原文：Armin Ronacher, "The Coming Loop", 2026-06-23 链接： #AI# #Loops# #软件工程# #反思#

显示更多

0

7

68

8

转发到社区

indigo@indigox

2026.06.22 01:40

昨天 CC 在我的 Indigo-Mind Agent loop 里工作时说有 prompt injection 企图 rm -rf 我的 Mac 个人文件夹，它成功阻止了，但还是不小心删了三个文件，吓死了！核查后应该是 Opus 4.8 的幻觉，估计 Context 太长还是什么其他原因，大家遇到过么？AI 的危险就是给它最高权限然后一次幻觉就 Game Over🤪

显示更多

0

转发到社区

YanXbt@IBuzovskyi

2026.06.19 19:51

HERMES AGENT v0.17.0 JUST SHIPPED. "THE REACH RELEASE." 1,475 COMMITS. 800 PRs. 245 CONTRIBUTORS. HERMES NOW REACHES IMESSAGE, RAFT NETWORK, AND CURSOR'S COMPOSER MODEL. the highlights: @NousResearch iMESSAGE WITHOUT A MAC RELAY Photon Spectrum integration ships native iMessage support. no Mac in a closet. no BlueBubbles bridge. hermes photon login → device code auth → done. Hermes lives in the blue bubbles now. ASYNC SUBAGENTS NO LONGER BLOCK YOUR CHAT delegate_task(background=true) dispatches a subagent that runs in the background. returns a handle immediately. you keep working. result re-enters as a new turn when it finishes. long research dives stop blocking your main session. IMAGE EDITING, NOT JUST GENERATION image_generate now edits source images. "make this logo blue." "remove the background." "turn this sketch into a render." works across every supported image provider. same tool, new mode. CURSOR'S COMPOSER MODEL VIA GROK OAUTH grok-composer-2.5-fast is in the xAI model picker. 200k context window. fast coding model behind Cursor. your Grok subscription. Hermes's agent loop. no separate API key needed. AUTOMATION BLUEPRINTS schedule tasks without learning cron syntax. "daily news briefing at 8am" becomes a form. one blueprint definition renders everywhere: dashboard form, CLI slash command, Telegram chat, docs catalog entry. answer questions, not memorize 0 8 * * *. FULL PROFILE BUILDER IN DASHBOARD build a complete Hermes profile from the browser. pick model. choose skills. attach MCPs. no config.yaml editing. plus unified multi-profile view with global switcher. SKILLS HUB BROWSER REHAUL connected hubs (OpenAI, Anthropic, HuggingFace, NVIDIA). Featured section. full skill previews before install. security scan on each skill. browsing skills is a real browsing experience now. ATOMIC MEMORY OPERATIONS memory tool gained an operations array. batch add/replace/remove edits applied atomically. the model can free space and add entries in ONE call even when individual adds would overflow the budget. memory updates no longer fail mid-edit. CURATOR STOPPED SPENDING TOKENS BY DEFAULT deterministic skill pruning still runs free. LLM-powered consolidation now opt-in only: curator.consolidate: true to enable. routine background curation costs you zero tokens. WHATSAPP BUSINESS CLOUD API official Meta adapter alongside existing Baileys bridge. no QR-scanning bridge process to keep alive. hosted, first-party WhatsApp channel. TELEGRAM RICH MESSAGES (BOT API 10.1) proper rich formatting. cleaner long-message handling. native markup instead of flattened text. on by default. opt-out available. DESKTOP APP IS NOW A DAILY DRIVER rebindable keyboard shortcuts. native OS notifications. live subagent watch-windows streaming activity. composer model selector with per-model presets. automatic RTL/bidi text. resizable VS Code terminal pane. per-thread composer drafts. install ANY VS Code Marketplace theme. RAFT AGENT NETWORK new bundled adapter connects Hermes to raft. build as an external agent. wake-channel bridge. privacy by contract: wake payloads carry metadata only, never message bodies. SECURE DASHBOARD LOGIN every token-required endpoint returns 401 behind OAuth gate. websocket auth uses served dashboard token. public_url override warnings. exposing your dashboard to the network is safer by default. upgrade: hermes update 300+ issues closed. security round included. hermes-agent ecosystem now at 198K GitHub stars.

显示更多

0

3

65

6

转发到社区

烟花老师@teach_fireworks

2026.06.18 14:46

Loop Engineering 精华文章汇总! 2026 年 Agent 开始聚焦在长任务后，重点慢慢变成了：如何设计一个能够持续思考、执行、观察、验证和演进的循环系统？从 Codex 到 Claude Code，从 OpenHands 到各种 Coding Agent。业余项目和生产级系统之间最大的差距是Harness 工程，包括 Loop。 Agent 能不能持续工作几十分钟甚至几个小时？能不能在失败后恢复？能不能控制成本？能不能知道什么时候停下来？这些问题，最终都落到了 Loop 设计上。 📚 推荐阅读 1. Loop Engineering — Addy Osmani 2. Loop Engineering — Firecrawl 3. What Is the AI Agent Loop? — Oracle 4. Harness Engineering — OpenAI 5. Harness Engineering for Coding Agent Users — Martin Fowler 6. Agentic Loops: From ReAct to Loop Engineering 7. Loop Engineering for AI Agents (Memory-First) — Mem0 📄 推荐论文 1. Agentic Harness Engineering 2. From Agent Loops to Structured Graphs 🛠 推荐研究的开源项目 Codex CLI OpenHands PydanticAI OpenAI Agents SDK 重点研究： Loop 如何运行 Loop 如何停止 Loop 如何验证 Loop 如何恢复 Loop 如何调试 Prompt 决定 Agent 如何开始。 Context 决定 Agent 能看到什么。 Loop 决定 Agent 最终能走多远。 Loop Engineering： Think ↓ Act ↓ Observe ↓ Verify ↓ Evolve ↓ Repeat 你设计循环。 Agent 在循环中持续改进。每完成一次循环，系统都会比上一次更接近目标。 Agent 从来不缺 Loop。缺的是 Loop 的工程学。

显示更多

0

42

780

191

转发到社区

码良@cxjwin

2026.06.14 17:26

发现一个很实用的网站，专门收集各种现成的 Agent Loop 模板。核心理念就是：别再一直手动 prompt 了，设计好 loop 让 agent 自己跑完任务。里面有 Test Until Green、Fix CI Until Green、Build Until Green 等常用 loop，每个都配好了目标、检查命令和退出条件。特别适合用 Claude Code 和 Cursor 的朋友，直接复制就能用。把 Loop Engineering 从理论落地成可操作的工具了，推荐试试。评论区放链接 👇

显示更多

0

13

99

22

转发到社区

宝玉@dotey

2026.05.16 04:24

帮转 DeepSeek 招 Agent Harness 产品经理职位描述团队使命 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力，转化为领先的 Agent 产品。这其中除模型本身以外的所有工作，都属于 Harness 的范畴。你将加入 Harness 团队，与工程师、研究员紧密协作，参与 DeepSeek 桌面端 Agent 产品的全过程，定义 DeepSeek 对 Harness 的理解。主要职责 • 规划 DeepSeek Harness 产品路线图，连接研究员、工程师、开源社区和广大用户。 • 理解判断用户的最真实需求，定义与衡量“Agent 是否真的在更多场景下更深入的帮助到更多的人”的指标。 • 与模型训练团队的研究员深度沟通与合作，实现模型与 Harness 的共同进化。 • 帮助 Harness 产品内部落地，以内部真实任务做为 Harness 产品和模型相关能力训练的重要反馈源，持续迭代产品能力。 • 维护 Harness 产品用户社群，从潜在海量用户群体中获取反馈、提取信号，指导产品迭代。 • 协助项目管理相关工作。任职要求 • 2年以上产品经理从业经验，产品逻辑清晰。特别优秀候选人可放宽年限。 • 学历本科及以上。 • 能够使用 vibe coding 写代码，不一定需要技术背景。 • 能够设计系统性的收集数据的方法（包括问卷、访谈、A/B测试、灰度测试等），并使用统计学的工具严谨科学的分析数据。对此有系统性的思考和实践。 • 是 Agent 产品的高强度用户，熟悉 Agent 产品的各种形态，对 Agent 有极大的热情，对模型行为有品味有判断力，对开发者体验及用户体验有强感知。深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等类似产品，并将相关产品的使用融入到自己的工作和生活中。 • 理解 LLM 以及 Agent 基本机制及其技术原理，包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等相关知识。对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有第一手实践。 • 具备UI/UX设计素养。能够在 AI 辅助下完成产品原型图设计、UI设计等相关的产品设计工作。 • 优秀的中文沟通能力。能用英文与开源社区、用户社群书面沟通。加分项 • AI行业从业经验、AI相关产品经验。 • 作为小团队中的产品经理主导产品路线的经验。 • 与研究员深度协作的经验。 • 深度参与开源社区或维护开源社区关系的经验。 • 其它超乎常人的与此工作相关的才能。团队使命 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力，转化为领先的 Agent 产品。这其中除模型本身以外的所有工作，都属于 Harness 的范畴。你将加入 Harness 团队，与工程师、研究员紧密协作，参与 DeepSeek 桌面端 Agent 产品的全过程，定义 DeepSeek 对 Harness 的理解。主要职责 • 规划 DeepSeek Harness 产品路线图，连接研究员、工程师、开源社区和广大用户。 • 理解判断用户的最真实需求，定义与衡量“Agent 是否真的在更多场景下更深入的帮助到更多的人”的指标。 • 与模型训练团队的研究员深度沟通与合作，实现模型与 Harness 的共同进化。 • 帮助 Harness 产品内部落地，以内部真实任务做为 Harness 产品和模型相关能力训练的重要反馈源，持续迭代产品能力。 • 维护 Harness 产品用户社群，从潜在海量用户群体中获取反馈、提取信号，指导产品迭代。 • 协助项目管理相关工作。任职要求 • 2年以上产品经理从业经验，产品逻辑清晰。特别优秀候选人可放宽年限。 • 学历本科及以上。 • 能够使用 vibe coding 写代码，不一定需要技术背景。 • 能够设计系统性的收集数据的方法（包括问卷、访谈、A/B测试、灰度测试等），并使用统计学的工具严谨科学的分析数据。对此有系统性的思考和实践。 • 是 Agent 产品的高强度用户，熟悉 Agent 产品的各种形态，对 Agent 有极大的热情，对模型行为有品味有判断力，对开发者体验及用户体验有强感知。深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等类似产品，并将相关产品的使用融入到自己的工作和生活中。 • 理解 LLM 以及 Agent 基本机制及其技术原理，包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等相关知识。对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有第一手实践。 • 具备UI/UX设计素养。能够在 AI 辅助下完成产品原型图设计、UI设计等相关的产品设计工作。 • 优秀的中文沟通能力。能用英文与开源社区、用户社群书面沟通。加分项 • AI行业从业经验、AI相关产品经验。 • 作为小团队中的产品经理主导产品路线的经验。 • 与研究员深度协作的经验。 • 深度参与开源社区或维护开源社区关系的经验。 • 其它超乎常人的与此工作相关的才能。

显示更多

0

66

274

35

转发到社区

宝玉@dotey

2026.05.09 03:06

GPT Image 2 Prompt：水墨风格 Slides/PPT 可以把下面的提示词模板发给 Agent，让 Agent 帮你生成每一页 Slides 的画图 Prompt，Codex 这样有画图能力的直接出图。 --- 提示词模板 --- Title: [在此输入幻灯片标题] Key Points: - [要点 1：简洁的描述] - [要点 2：核心数据或事实] - [要点 3：关键结论] Visual Elements: [描述视觉元素，例如：纹理宣纸背景 (Textured rice paper background)、水墨山水 (Ink-wash motifs)、简约的圆圈 (Enso circle)、红色印章 (Red seal mark)、雾气效果 (Mist-grey effects)]。整体风格应保持 [Quiet / Restrained / Wabi-Sabi / Contemporary East-Asian Luxury]。 Layout Preference: [布局说明，例如：左右分割 (Split layout)、居中对齐 (Centered layout)、文字居左且右侧留白 (Left-aligned text with negative space)]。 Text Hierarchy: [文字层级，例如：标题使用大号衬线字体 (Large Display Serif)，正文使用易读的衬线字体 (Body Serif)，确保视觉平衡和清晰的阅读顺序]。 Continuity Note: [延续性说明，例如：保持与前一页相同的背景纹理和色调 (#F5F0E8#, #2C3E2D#)，使用相似的印章位置以维持视觉一致性]。 ----- 示例 ------ Title: Agent Loop 深度解析: 揭秘 AI 智能体的心脏. Key Points: 核心定义、主要职责、设计目标。 Visual Elements: 大号优雅标题，背景为宣纸纹理，带有淡淡的水墨山水和圆圈笔触，角落处有红色小印章。 Layout: 干净的布局，大量留白（Open Sky）。 Text Hierarchy: 标题最为突出，下方是较小的正文。

显示更多

0

49

188

37

转发到社区

与「AgentLoop」相关的搜索结果