TopicDigg
最新
社区
登录
注册
注册并分享邀请链接,可获得视频播放与邀请奖励。
立即注册
宝玉 (@dotey) “要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做” — TopicDigg
宝玉
@dotey
Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.
加入 April 2007
1.6K
正在关注
218.4K
粉丝
宝玉
@dotey
2026.05.13 17:07
要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。 不过前提是先生成单词级别的时间戳,这样才能在组合后拼回去,现在主流语音识别模型都支持输出 json 格式,每个单词都标注清楚start和end的timestamp。 英文断句很简单,只要找标点符号就可以切分成长度合适的。 但中文断句要难一些,中文语音用whisper生成,吐出来的是一大坨没有标点的,并且它的“word”不是一个汉字,而是几个汉字。 所以需要借助大模型去断句加标点,然后再重新对齐时间戳再拆分,就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做,就是费 Token 些。 还有一个坑就是几个小时的访谈,大模型是没办法一次性处理的,需要分块,但是分块还要注意不能切分在一句话中间。 最后不一定要用 Whisper API,现在电脑跑 Whisper 模型还是足够。 如果是 Mac,推荐用 WhisperKit,支持word level timestamp,以及识别 speaker
显示更多
Jianshuo Wang
@jianshuo
2026.05.13 14:29
Whisper API 直接吐的 SRT,几乎不能用。 两个失败模式: - 30 秒一大块字幕,没人读得完 - 安静段循环幻觉「你很难的」× 50 修法:response_format=verbose_json + timestamp_granularities[]=word,自己拼 cue。 别让不懂你需求的工具替你做边界决定。 源码:
显示更多
0
0
15
85
15
转发到社区
热门用户
Miu_Cosplayer
@smilecutty
730.8K 粉丝
sakuramomo🍑紫玥桃🍑
@skauramomo
760.9K 粉丝
小空Sora
@konkon6927
414.4K 粉丝
Bill The Investor
@billtheinvestor
117.4K 粉丝
半半子💖BANBANKO
@Banbanko_
521.6K 粉丝
土澳大狮兄BroLeon | 🔶BNB |
@BroLeon
115.4K 粉丝
郭宇 guoyu.eth
@turingou
176.7K 粉丝
sunny
@77sunnyx
855.6K 粉丝
Natsuko夏夏子💕C107(水)東7 T-11b
@Natsuko233
284.9K 粉丝
凤九歌🔶BNB
@liuwan9898
5K 粉丝
CryptoMaid加密女仆お嬢様 .edge🦭
@maid_crypto
145.4K 粉丝
六二二同学
@sixtutu622
320.6K 粉丝
焖焖碳-
@MMMenmentan
226.3K 粉丝
memory
@The_Wooo
102.5K 粉丝
ねね🐻❄
@__zzz___oo0
370.3K 粉丝