哈哈哈 跟这个工作有些 “渊源”:
文章重点是连续VAE极致压缩,这个思路在25年初我实验验证过、因为客观因素没有继续下去( VibeVoice ASR 这个工作很是开心(虽然不是自己做的),VibeVoice realtime TTS 也跟自己在 24年初的一个 idea 一致;
说个八卦 VibeVoice 投 ACL 被拒了,因为我的一个没推过开源项目🤣,配合说明了下情况、也没给通过;
VibeVoice 实测能力是不错的,没碰到幻觉的问题,尺寸 7B 跑起来还是需要一定资源的,长时间的输入对算力和内存要求还是有的;
把 speaker diarization 揉到 LLM-ASR 模型是个新趋势,其实继续延伸 就是 Gemini 音频理解呀(Gemini 还能直接推断 speaker name Gemini 输出时间轴幻觉仍然很严重的;
语音技术在 speaker diarization 和 timestamp 上近期都有新工作新思路,这些新方式都有严重幻觉问题,是在新方式上解决问题呢还是守旧地用传统方式,准备写个文章讨论下: 语音的十字路口😇。
显示更多