Joruno (@wsl8297) “在 GitHub 上发现一个开源的视频翻译工具：Violin。上传视频，自动识别语音、翻译、合”

2026.05.19 06:01

在 GitHub 上发现一个开源的视频翻译工具：Violin。上传视频，自动识别语音、翻译、合成目标语言的配音，再混回视频里，完全对齐，还能输出 SRT 字幕。 GitHub：在线体验：核心功能： - 支持 33 种目标语言，16 种常用语言配有精选母语配音（Cartesia Sonic 3 + ElevenLabs） - 视频内 Q&A：可以对配音后的视频任意时刻提问，答案基于附近字幕和采样帧 - 自然语言选声音：描述想要的声音类型，LLM 从语音库里自动挑选 - 6 种风格预设：标准、儿童、学术、休闲、讲故事、新闻 - 可插拔架构：Together / OpenAI / ElevenLabs 各阶段可互换，一个 YAML 配置搞定工作流程：视频 → ffmpeg 提取音频 → Whisper Large v3 识别词级时间戳 → DeepSeek V4 Pro 翻译 → Cartesia Sonic 3 合成配音 → ffmpeg 速度对齐视频、拼接、编码 → 输出 mp4 + 可选 SRT 配置灵活，只需覆盖 YAML 里想改的键值： - 转录：Together / OpenAI - 翻译：Together / OpenAI - TTS：Together / ElevenLabs / OpenAI 风格预设示例： - standard：忠实翻译，自然语音 - kids：改写成 7 岁孩子能听懂的，语速正常，兴奋情绪 - academic：正式用语，保留术语和敬语，语速 0.95 倍，平静情绪 - casual：口语化俚语、缩略、友好，语速 1.1 倍 - storyteller：生动戏剧化叙述，语速 0.9 倍，热情情绪 - news：简洁、陈述式、播报风格，语速正常，中性情绪

显示更多