注册并分享邀请链接,可获得视频播放与邀请奖励。

Feiteng 的个人资料封面
Feiteng 的头像

Feiteng (@FeitengLi)

@FeitengLi
Speech · Image · Video · LLM multimodal generative models Research → Infrastructure → Built AI algo serving 200M+ users 公众号: Generative AI Open to opportunities
1.2K 正在关注    3.1K 粉丝
Boris Cherny(Claude Code 的创始人兼负责人) @bcherny 和 Cat Wu(Claude Code 产品负责人) 复盘 Claude Code 第一年: 一年前通用版上线,第一个 demo 发到 Slack 只换来两个 emoji;现在每天有几千个自主 agent 在跑。 这一年最反直觉的转变,是 Boris 已经不直接跟 agent 说话了。 「我跟一个 loop 说话,或者跟一个 routine 说话,由它来给 Claude 发提示词,这真的很疯狂。」 他把 18 个月概括成两次平台级跃迁:第一次,人从写源代码挪到跟 agent 对话;第二次正在发生,人从跟 agent 对话再挪到跟一个 loop 对话,由它去驱动 Claude。 loop 能干到什么程度?Cat Wu 留下的一个边界 bug,当晚被「另一个 Claude」先修好了——一位同事的 routine 专盯 5 小时没人回应的 bug 报告,自动提修复、容易验证的直接合并。Boris 说 routine 现在接管了全部代码审查: · 帮你盯着每一个 PR · 手动修 CI、手动 rebase 这些,他已经很久没做了 放手让 agent 自己跑,不会更危险吗?Boris 的判断正相反。 他的原话: 「其实你根本不想读大多数这些请求,把它路由给另一个模型去做安全检查,效果好太多了。」 理由是人性:当 99% 的权限提示都无害,人读着读着眼睛就发直了,真正危险那条反而被漏掉。推给用户前,团队拿数千条执行轨迹训练分类器,再让红队对代码库做提示注入攻击,每一次成功的攻击都变成一个 eval。 那怎么让一个 agent 能无人值守一直跑?Boris 的第一原则是不纠正单次输出: 「每次 Claude 犯了错,我不会告诉 Claude 下次要怎么做不同。」 而是把解法写进 CLAUDE.md 或做成一个 skill,把同类错误从此关掉。至于上下文,他给的是一条时间线——Sonnet 3.5 要做提示词工程,Opus 4 要做上下文工程,现在的模型两者都不要: 「给它最精简的系统提示词,最少的工具,然后让模型自己搞清楚。」 被问到下一步,Boris 没有预测形态,只说 agent 会跑得更久、更自主,同时并行的数量从一个跳到几千,而协调它们的界面会和现在完全不同——「再过一年,会是一套全新的东西,如果还是这些东西,那反而令人意外」。 完整双语转录 + 章节摘要 + 字幕:
显示更多
其实这些问题都能很好的解决了 1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择,whisper 幻觉多也要求 30s片段,Qwen3-ASR 塞更长的音频识别越准确,最大支持 20 分钟; 2. 文字时间轴 也扔掉 whisper 不是很准, 虽然 Qwen/Qwen3-ForcedAligner-0.6B 也能用,但实际测试超过 180s 就时间轴就混乱不堪,可以用 @LattifAI_HQ 4 小时都轻松准确, 可以到这里看看 卡拉 OK 字幕都十分准确,也有 skill speaker diarization 和 naming 也解决的很好了 3. VAD 切片我推荐自己的项目 准确性 Top
显示更多
要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。 不过前提是先生成单词级别的时间戳,这样才能在组合后拼回去,现在主流语音识别模型都支持输出 json 格式,每个单词都标注清楚start和end的timestamp。 英文断句很简单,只要找标点符号就可以切分成长度合适的。 但中文断句要难一些,中文语音用whisper生成,吐出来的是一大坨没有标点的,并且它的“word”不是一个汉字,而是几个汉字。 所以需要借助大模型去断句加标点,然后再重新对齐时间戳再拆分,就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做,就是费 Token 些。 还有一个坑就是几个小时的访谈,大模型是没办法一次性处理的,需要分块,但是分块还要注意不能切分在一句话中间。 最后不一定要用 Whisper API,现在电脑跑 Whisper 模型还是足够。 如果是 Mac,推荐用 WhisperKit,支持word level timestamp,以及识别 speaker
显示更多
0
37
833
136
转发到社区
哈哈哈 跟这个工作有些 “渊源”: 文章重点是连续VAE极致压缩,这个思路在25年初我实验验证过、因为客观因素没有继续下去( VibeVoice ASR 这个工作很是开心(虽然不是自己做的),VibeVoice realtime TTS 也跟自己在 24年初的一个 idea 一致; 说个八卦 VibeVoice 投 ACL 被拒了,因为我的一个没推过开源项目🤣,配合说明了下情况、也没给通过; VibeVoice 实测能力是不错的,没碰到幻觉的问题,尺寸 7B 跑起来还是需要一定资源的,长时间的输入对算力和内存要求还是有的; 把 speaker diarization 揉到 LLM-ASR 模型是个新趋势,其实继续延伸 就是 Gemini 音频理解呀(Gemini 还能直接推断 speaker name Gemini 输出时间轴幻觉仍然很严重的; 语音技术在 speaker diarization 和 timestamp 上近期都有新工作新思路,这些新方式都有严重幻觉问题,是在新方式上解决问题呢还是守旧地用传统方式,准备写个文章讨论下: 语音的十字路口😇。
显示更多