在 GitHub 上发现一个开源的视频翻译工具:Violin。上传视频,自动识别语音、翻译、合成目标语言的配音,再混回视频里,完全对齐,还能输出 SRT 字幕。
GitHub:
在线体验:
核心功能:
- 支持 33 种目标语言,16 种常用语言配有精选母语配音(Cartesia Sonic 3 + ElevenLabs)
- 视频内 Q&A:可以对配音后的视频任意时刻提问,答案基于附近字幕和采样帧
- 自然语言选声音:描述想要的声音类型,LLM 从语音库里自动挑选
- 6 种风格预设:标准、儿童、学术、休闲、讲故事、新闻
- 可插拔架构:Together / OpenAI / ElevenLabs 各阶段可互换,一个 YAML 配置搞定
工作流程:
视频 → ffmpeg 提取音频 → Whisper Large v3 识别词级时间戳 → DeepSeek V4 Pro 翻译 → Cartesia Sonic 3 合成配音 → ffmpeg 速度对齐视频、拼接、编码 → 输出 mp4 + 可选 SRT
配置灵活,只需覆盖 YAML 里想改的键值:
- 转录:Together / OpenAI
- 翻译:Together / OpenAI
- TTS:Together / ElevenLabs / OpenAI
风格预设示例:
- standard:忠实翻译,自然语音
- kids:改写成 7 岁孩子能听懂的,语速正常,兴奋情绪
- academic:正式用语,保留术语和敬语,语速 0.95 倍,平静情绪
- casual:口语化俚语、缩略、友好,语速 1.1 倍
- storyteller:生动戏剧化叙述,语速 0.9 倍,热情情绪
- news:简洁、陈述式、播报风格,语速正常,中性情绪
显示更多