其实这些问题都能很好的解决了
1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择,whisper 幻觉多也要求 30s片段,Qwen3-ASR 塞更长的音频识别越准确,最大支持 20 分钟;
2. 文字时间轴 也扔掉 whisper 不是很准, 虽然 Qwen/Qwen3-ForcedAligner-0.6B 也能用,但实际测试超过 180s 就时间轴就混乱不堪,可以用
@LattifAI_HQ 4 小时都轻松准确, 可以到这里看看 卡拉 OK 字幕都十分准确,也有 skill speaker diarization 和 naming 也解决的很好了
3. VAD 切片我推荐自己的项目 准确性 Top