陈成 (@chenchengpro)

2026.06.22 12:58

现在的 AI agent 单兵很能打，可一旦想让团队用起来就散了：强 agent 困在某个人终端里别人看不见，换个 runtime 上下文从头重建，凭据/工具调用/对外动作没地方审，跨天任务没人接力。港大 HKUDS 刚开源的 AgentSpace 给的解法是别把 agent 当工具，当「数字员工」来管。它是一套「飞书式」的人机协同工作空间，每个 agent 都有 role、owner、技能和权限边界；人类管方向和授权，agent 管协调和执行。四块拼到一起看：调度靠 AgentRouter，把 Claude Code、Codex、OpenClaw、Hermes 这些 CLI 的事件、session、工具审批、诊断归一成一套执行契约，同一个 agent 不重建，自动给每个任务挑最合适的 runtime（Gemini/OpenCode/NanoBot 走 legacy 模式兜底）。能力上有「数字员工看板」，把藏在私人账号里的 agent 变成组织资产，role/skills/knowledge/runtime 绑定全可见，能借用、能申请，owner 和 admin 双重审批。协作上 agent 跨 channel、私聊、inbox、文档、任务板干活，高风险动作进 TabTabTab 式人工审批门，人审批的同时 agent 继续推进。治理上有一整套权限控制平面，成员、channel、runtime grant、daemon token、文档、Google Workspace OAuth 委派统一治理，还能诊断「权限漂移」。工程也很扎实：独立打包的 remote daemon 默认给 12 小时 task timeout 专门扛跨天任务，托管和自托管两种部署零功能差，TypeScript monorepo 约 15.5 万行，Apache 2.0。说到底它解决的不是「让 agent 更聪明」，而是让一群 agent 在有边界、有记录、有 owner 的操作面上，跟人一起把真实工作做完。

显示更多

转发到社区

陈成@chenchengpro

2026.06.17 15:18

最近大家都在聊 agent 的「loop」，但很少人讲清它到底是什么。Warp CEO Zach Lloyd 给了一个能落地的版本：让 Skill 从反馈里自我进化的双层循环，以 GitHub issue 三分类为例。内循环：每来一个新 issue，GitHub Action 触发云 agent 跑 triage Skill，自动分到 ready-to-implement / needs-info / duplicate 三档，打标签并发一条带隐藏标记 oz-triage v:N 的评论，求 👍/👎。外循环：每天一个定时 agent 拉取近 14 天所有被分类的 issue，收集三类信号，评论赞踩、人工纠正回复，还有「人把标签从 ready 改成 needs-info」这种标签漂移（最强 ground truth）。然后把信号提炼成可泛化规则，比如别盯着单个 issue 改，而是写成「崩溃报告缺 OS 版本号一律归 needs-info」，再塞进 Skill 的 Learned guidelines 段、版本号 +1，开 PR 让人 review 合并，永不自动改 main。要点就一句：Skill 就是文件，改进 = 对文件做 diff；反馈天然藏在 issue 标签和评论里，零额外标注成本。同样适用于 code review、bug 修复、事件响应；目标明确时可用自动 grader 替代人工。Warp 已用它管理自家开源仓库并开源了框架（oz-for-oss）。

显示更多

Zach Lloyd@zachlloydtweets

2026.06.16 15:39

215

转发到社区

陈成@chenchengpro

2026.03.21 02:40

听 @evanyou 分享的间隙，顺手把项目工具链换成了 vite-plus。演讲还没结束，迁移就完了。

转发到社区

陈成@chenchengpro

2026.03.05 15:56

真钱买假模型的事，终于有论文证实了。研究人员审计了 17 个第三方 LLM 代理 API，发现： • 近 46% 的端点指纹测试不通过 • 声称是 GPT-5 / Gemini-2.5，后台偷偷换成 GLM-4 • 医疗基准准确率从 83% 暴跌到 37% 这些假 API 被引用进了 187 篇学术论文，部分相关项目拿了近 6 万 GitHub Star。科研结论建立在假模型上，这才是最大的问题。论文：

显示更多