注册并分享邀请链接,可获得视频播放与邀请奖励。

陈成 的个人资料封面
陈成 的头像

陈成 (@chenchengpro)

@chenchengpro
engineering @antgroup, created umijs, dvajs, mako and neovate code, now working on helm.
688 正在关注    10.2K 粉丝
现在的 AI agent 单兵很能打,可一旦想让团队用起来就散了:强 agent 困在某个人终端里别人看不见,换个 runtime 上下文从头重建,凭据/工具调用/对外动作没地方审,跨天任务没人接力。港大 HKUDS 刚开源的 AgentSpace 给的解法是别把 agent 当工具,当「数字员工」来管。 它是一套「飞书式」的人机协同工作空间,每个 agent 都有 role、owner、技能和权限边界;人类管方向和授权,agent 管协调和执行。四块拼到一起看: 调度靠 AgentRouter,把 Claude Code、Codex、OpenClaw、Hermes 这些 CLI 的事件、session、工具审批、诊断归一成一套执行契约,同一个 agent 不重建,自动给每个任务挑最合适的 runtime(Gemini/OpenCode/NanoBot 走 legacy 模式兜底)。 能力上有「数字员工看板」,把藏在私人账号里的 agent 变成组织资产,role/skills/knowledge/runtime 绑定全可见,能借用、能申请,owner 和 admin 双重审批。协作上 agent 跨 channel、私聊、inbox、文档、任务板干活,高风险动作进 TabTabTab 式人工审批门,人审批的同时 agent 继续推进。治理上有一整套权限控制平面,成员、channel、runtime grant、daemon token、文档、Google Workspace OAuth 委派统一治理,还能诊断「权限漂移」。 工程也很扎实:独立打包的 remote daemon 默认给 12 小时 task timeout 专门扛跨天任务,托管和自托管两种部署零功能差,TypeScript monorepo 约 15.5 万行,Apache 2.0。 说到底它解决的不是「让 agent 更聪明」,而是让一群 agent 在有边界、有记录、有 owner 的操作面上,跟人一起把真实工作做完。
显示更多
最近大家都在聊 agent 的「loop」,但很少人讲清它到底是什么。Warp CEO Zach Lloyd 给了一个能落地的版本:让 Skill 从反馈里自我进化的双层循环,以 GitHub issue 三分类为例。 内循环:每来一个新 issue,GitHub Action 触发云 agent 跑 triage Skill,自动分到 ready-to-implement / needs-info / duplicate 三档,打标签并发一条带隐藏标记 oz-triage v:N 的评论,求 👍/👎。 外循环:每天一个定时 agent 拉取近 14 天所有被分类的 issue,收集三类信号,评论赞踩、人工纠正回复,还有「人把标签从 ready 改成 needs-info」这种标签漂移(最强 ground truth)。然后把信号提炼成可泛化规则,比如别盯着单个 issue 改,而是写成「崩溃报告缺 OS 版本号一律归 needs-info」,再塞进 Skill 的 Learned guidelines 段、版本号 +1,开 PR 让人 review 合并,永不自动改 main。 要点就一句:Skill 就是文件,改进 = 对文件做 diff;反馈天然藏在 issue 标签和评论里,零额外标注成本。同样适用于 code review、bug 修复、事件响应;目标明确时可用自动 grader 替代人工。Warp 已用它管理自家开源仓库并开源了框架(oz-for-oss)。
显示更多
0
13
215
29
转发到社区
@evanyou 分享的间隙,顺手把项目工具链换成了 vite-plus。 演讲还没结束,迁移就完了。
真钱买假模型的事,终于有论文证实了。 研究人员审计了 17 个第三方 LLM 代理 API,发现: • 近 46% 的端点指纹测试不通过 • 声称是 GPT-5 / Gemini-2.5,后台偷偷换成 GLM-4 • 医疗基准准确率从 83% 暴跌到 37% 这些假 API 被引用进了 187 篇学术论文,部分相关项目拿了近 6 万 GitHub Star。 科研结论建立在假模型上,这才是最大的问题。 论文:
显示更多
0
47
994
139
转发到社区