Feiteng (@FeitengLi)

2026.06.10 06:25

Boris Cherny(Claude Code 的创始人兼负责人) @bcherny 和 Cat Wu(Claude Code 产品负责人) 复盘 Claude Code 第一年: 一年前通用版上线，第一个 demo 发到 Slack 只换来两个 emoji；现在每天有几千个自主 agent 在跑。这一年最反直觉的转变，是 Boris 已经不直接跟 agent 说话了。「我跟一个 loop 说话，或者跟一个 routine 说话，由它来给 Claude 发提示词，这真的很疯狂。」他把 18 个月概括成两次平台级跃迁：第一次，人从写源代码挪到跟 agent 对话；第二次正在发生，人从跟 agent 对话再挪到跟一个 loop 对话，由它去驱动 Claude。 loop 能干到什么程度？Cat Wu 留下的一个边界 bug，当晚被「另一个 Claude」先修好了——一位同事的 routine 专盯 5 小时没人回应的 bug 报告，自动提修复、容易验证的直接合并。Boris 说 routine 现在接管了全部代码审查： · 帮你盯着每一个 PR · 手动修 CI、手动 rebase 这些，他已经很久没做了放手让 agent 自己跑，不会更危险吗？Boris 的判断正相反。他的原话：「其实你根本不想读大多数这些请求，把它路由给另一个模型去做安全检查，效果好太多了。」理由是人性：当 99% 的权限提示都无害，人读着读着眼睛就发直了，真正危险那条反而被漏掉。推给用户前，团队拿数千条执行轨迹训练分类器，再让红队对代码库做提示注入攻击，每一次成功的攻击都变成一个 eval。那怎么让一个 agent 能无人值守一直跑？Boris 的第一原则是不纠正单次输出：「每次 Claude 犯了错，我不会告诉 Claude 下次要怎么做不同。」而是把解法写进 CLAUDE.md 或做成一个 skill，把同类错误从此关掉。至于上下文，他给的是一条时间线——Sonnet 3.5 要做提示词工程，Opus 4 要做上下文工程，现在的模型两者都不要：「给它最精简的系统提示词，最少的工具，然后让模型自己搞清楚。」被问到下一步，Boris 没有预测形态，只说 agent 会跑得更久、更自主，同时并行的数量从一个跳到几千，而协调它们的界面会和现在完全不同——「再过一年，会是一套全新的东西，如果还是这些东西，那反而令人意外」。完整双语转录 + 章节摘要 + 字幕：

显示更多

转发到社区

Feiteng@FeitengLi

2026.05.15 10:43

其实这些问题都能很好的解决了 1. 扔掉 whisper，换 ASR 模型，Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择，whisper 幻觉多也要求 30s片段，Qwen3-ASR 塞更长的音频识别越准确，最大支持 20 分钟； 2. 文字时间轴也扔掉 whisper 不是很准, 虽然 Qwen/Qwen3-ForcedAligner-0.6B 也能用，但实际测试超过 180s 就时间轴就混乱不堪，可以用 @LattifAI_HQ 4 小时都轻松准确，可以到这里看看卡拉 OK 字幕都十分准确，也有 skill speaker diarization 和 naming 也解决的很好了 3. VAD 切片我推荐自己的项目准确性 Top

显示更多

宝玉@dotey

2026.05.13 17:07

要做好字幕 SRT，断句最重要，其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。不过前提是先生成单词级别的时间戳，这样才能在组合后拼回去，现在主流语音识别模型都支持输出 json 格式，每个单词都标注清楚start和end的timestamp。英文断句很简单，只要找标点符号就可以切分成长度合适的。但中文断句要难一些，中文语音用whisper生成，吐出来的是一大坨没有标点的，并且它的“word”不是一个汉字，而是几个汉字。所以需要借助大模型去断句加标点，然后再重新对齐时间戳再拆分，就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做，就是费 Token 些。还有一个坑就是几个小时的访谈，大模型是没办法一次性处理的，需要分块，但是分块还要注意不能切分在一句话中间。最后不一定要用 Whisper API，现在电脑跑 Whisper 模型还是足够。如果是 Mac，推荐用 WhisperKit，支持word level timestamp，以及识别 speaker

显示更多

833

136

转发到社区

Feiteng@FeitengLi

2026.04.29 00:55

哈哈哈跟这个工作有些 “渊源”：文章重点是连续VAE极致压缩，这个思路在25年初我实验验证过、因为客观因素没有继续下去( VibeVoice ASR 这个工作很是开心（虽然不是自己做的），VibeVoice realtime TTS 也跟自己在 24年初的一个 idea 一致；说个八卦 VibeVoice 投 ACL 被拒了，因为我的一个没推过开源项目🤣，配合说明了下情况、也没给通过； VibeVoice 实测能力是不错的，没碰到幻觉的问题，尺寸 7B 跑起来还是需要一定资源的，长时间的输入对算力和内存要求还是有的；把 speaker diarization 揉到 LLM-ASR 模型是个新趋势，其实继续延伸就是 Gemini 音频理解呀（Gemini 还能直接推断 speaker name Gemini 输出时间轴幻觉仍然很严重的；语音技术在 speaker diarization 和 timestamp 上近期都有新工作新思路，这些新方式都有严重幻觉问题，是在新方式上解决问题呢还是守旧地用传统方式，准备写个文章讨论下：语音的十字路口😇。

显示更多