注册并分享邀请链接,可获得视频播放与邀请奖励。

Feiteng (@FeitengLi) “其实这些问题都能很好的解决了 1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻” — TopicDigg

Feiteng 的个人资料封面
Feiteng 的头像
Feiteng
@FeitengLi
Speech · Image · Video · LLM multimodal generative models Research → Infrastructure → Built AI algo serving 200M+ users 公众号: Generative AI Open to opportunities
加入 November 2016
1.2K 正在关注    3.1K 粉丝
其实这些问题都能很好的解决了 1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择,whisper 幻觉多也要求 30s片段,Qwen3-ASR 塞更长的音频识别越准确,最大支持 20 分钟; 2. 文字时间轴 也扔掉 whisper 不是很准, 虽然 Qwen/Qwen3-ForcedAligner-0.6B 也能用,但实际测试超过 180s 就时间轴就混乱不堪,可以用 @LattifAI_HQ 4 小时都轻松准确, 可以到这里看看 卡拉 OK 字幕都十分准确,也有 skill speaker diarization 和 naming 也解决的很好了 3. VAD 切片我推荐自己的项目 准确性 Top
显示更多
要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。 不过前提是先生成单词级别的时间戳,这样才能在组合后拼回去,现在主流语音识别模型都支持输出 json 格式,每个单词都标注清楚start和end的timestamp。 英文断句很简单,只要找标点符号就可以切分成长度合适的。 但中文断句要难一些,中文语音用whisper生成,吐出来的是一大坨没有标点的,并且它的“word”不是一个汉字,而是几个汉字。 所以需要借助大模型去断句加标点,然后再重新对齐时间戳再拆分,就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做,就是费 Token 些。 还有一个坑就是几个小时的访谈,大模型是没办法一次性处理的,需要分块,但是分块还要注意不能切分在一句话中间。 最后不一定要用 Whisper API,现在电脑跑 Whisper 模型还是足够。 如果是 Mac,推荐用 WhisperKit,支持word level timestamp,以及识别 speaker
显示更多
0
37
833
136
转发到社区