Feiteng (@FeitengLi) “哈哈哈跟这个工作有些 “渊源”：文章重点是连续VAE极致压缩，这个思路在25年初我实验”

2026.04.29 00:55

哈哈哈跟这个工作有些 “渊源”：文章重点是连续VAE极致压缩，这个思路在25年初我实验验证过、因为客观因素没有继续下去( VibeVoice ASR 这个工作很是开心（虽然不是自己做的），VibeVoice realtime TTS 也跟自己在 24年初的一个 idea 一致；说个八卦 VibeVoice 投 ACL 被拒了，因为我的一个没推过开源项目🤣，配合说明了下情况、也没给通过； VibeVoice 实测能力是不错的，没碰到幻觉的问题，尺寸 7B 跑起来还是需要一定资源的，长时间的输入对算力和内存要求还是有的；把 speaker diarization 揉到 LLM-ASR 模型是个新趋势，其实继续延伸就是 Gemini 音频理解呀（Gemini 还能直接推断 speaker name Gemini 输出时间轴幻觉仍然很严重的；语音技术在 speaker diarization 和 timestamp 上近期都有新工作新思路，这些新方式都有严重幻觉问题，是在新方式上解决问题呢还是守旧地用传统方式，准备写个文章讨论下：语音的十字路口😇。

显示更多