注册并分享邀请链接,可获得视频播放与邀请奖励。

Joruno (@wsl8297) “在 GitHub 上发现一个开源的视频翻译工具:Violin。上传视频,自动识别语音、翻译、合” — TopicDigg

Joruno 的个人资料封面
Joruno 的头像
Joruno
@wsl8297
🧠 AI 程序员,写提示词比写代码还多 💻 坚持分享高质量、有趣、实用的教程、AI工具 💃 梦想是成为一名秧歌 STAR
加入 February 2025
550 正在关注    13.7K 粉丝
在 GitHub 上发现一个开源的视频翻译工具:Violin。上传视频,自动识别语音、翻译、合成目标语言的配音,再混回视频里,完全对齐,还能输出 SRT 字幕。 GitHub: 在线体验: 核心功能: - 支持 33 种目标语言,16 种常用语言配有精选母语配音(Cartesia Sonic 3 + ElevenLabs) - 视频内 Q&A:可以对配音后的视频任意时刻提问,答案基于附近字幕和采样帧 - 自然语言选声音:描述想要的声音类型,LLM 从语音库里自动挑选 - 6 种风格预设:标准、儿童、学术、休闲、讲故事、新闻 - 可插拔架构:Together / OpenAI / ElevenLabs 各阶段可互换,一个 YAML 配置搞定 工作流程: 视频 → ffmpeg 提取音频 → Whisper Large v3 识别词级时间戳 → DeepSeek V4 Pro 翻译 → Cartesia Sonic 3 合成配音 → ffmpeg 速度对齐视频、拼接、编码 → 输出 mp4 + 可选 SRT 配置灵活,只需覆盖 YAML 里想改的键值: - 转录:Together / OpenAI - 翻译:Together / OpenAI - TTS:Together / ElevenLabs / OpenAI 风格预设示例: - standard:忠实翻译,自然语音 - kids:改写成 7 岁孩子能听懂的,语速正常,兴奋情绪 - academic:正式用语,保留术语和敬语,语速 0.95 倍,平静情绪 - casual:口语化俚语、缩略、友好,语速 1.1 倍 - storyteller:生动戏剧化叙述,语速 0.9 倍,热情情绪 - news:简洁、陈述式、播报风格,语速正常,中性情绪
显示更多