在 GitHub 上发现一个开源的视频翻译工具:Violin。上传视频,自动识别语音、翻译、合成目标语言的配音,再混回视频里,完全对齐,还能输出 SRT 字幕。
GitHub:
在线体验:
核心功能:
- 支持 33 种目标语言,16 种常用语言配有精选母语配音(Cartesia Sonic 3 + ElevenLabs)
- 视频内 Q&A:可以对配音后的视频任意时刻提问,答案基于附近字幕和采样帧
- 自然语言选声音:描述想要的声音类型,LLM 从语音库里自动挑选
- 6 种风格预设:标准、儿童、学术、休闲、讲故事、新闻
- 可插拔架构:Together / OpenAI / ElevenLabs 各阶段可互换,一个 YAML 配置搞定
工作流程:
视频 → ffmpeg 提取音频 → Whisper Large v3 识别词级时间戳 → DeepSeek V4 Pro 翻译 → Cartesia Sonic 3 合成配音 → ffmpeg 速度对齐视频、拼接、编码 → 输出 mp4 + 可选 SRT
配置灵活,只需覆盖 YAML 里想改的键值:
- 转录:Together / OpenAI
- 翻译:Together / OpenAI
- TTS:Together / ElevenLabs / OpenAI
风格预设示例:
- standard:忠实翻译,自然语音
- kids:改写成 7 岁孩子能听懂的,语速正常,兴奋情绪
- academic:正式用语,保留术语和敬语,语速 0.95 倍,平静情绪
- casual:口语化俚语、缩略、友好,语速 1.1 倍
- storyteller:生动戏剧化叙述,语速 0.9 倍,热情情绪
- news:简洁、陈述式、播报风格,语速正常,中性情绪
显示更多
分享一个 GitHub 上开源且免费的浏览器插件:MultiPost。
把你要发布的内容一键同步到多个社交平台:微博、知乎、小红书等十多个主流平台,省去重复粘贴的时间。
GitHub:
官网:
支持文字、图片、视频等多种形式;还能自动抓取网页内容、定时发布,并结合 AI 辅助生成内容,让多平台分发更高效、更省心。
显示更多
逛 GitHub 时挖到一个真·宝藏开源项目:12-Factor Agents。它把「AI Agent 应用怎么做才像工程、能上线」这件事,浓缩成 12 条核心设计原则,GitHub 已拿下 11k+ Star。
这套原则不是拍脑袋总结,而是作者与上百位技术创始人深度交流后提炼出的可执行方法论。覆盖上下文管理、工具调用、状态建模、控制流设计、错误收敛、模块化架构等关键环节,讲的不是概念,而是能直接落地的工程做法。
GitHub:
你将收获:
- 12 条核心原则:从自然语言交互到工具编排、状态与错误处理的全链路指导
- 生产级设计模式:来自真实项目的架构套路与最佳实践
- 模块化思路:把 agent 拆成可复用、可组合的独立模块
- 实战案例:完整流程 + 常见坑位与解决方案
- 框架无关:不绑任何特定技术栈,怎么做都能套用
还附带清晰的视觉图解和深度讲解,适合边学边搭。希望能帮你把 agent 从 demo 做到可投产的 AI 产品。
显示更多
在 GitHub 上挖到一门很实用的开源课:Learn Harness Engineering,专门教你给 AI 编程助手搭一套更可靠的“工作台”。
它把 AI 协作拆成五个关键机制:指令、状态、验证、范围、会话,让每次任务都可追踪、可续接、可验证,不再靠运气出结果。
GitHub:
官网:
课程结构很清晰:12 节理论 + 6 个实战项目,用同一个桌面应用贯穿推进,边做边演进。
从最基础的对比实验起步,逐步把整套工作环境搭起来;每个项目的产出,直接接到下一个项目继续用,越做越稳。
更贴心的是,它还提供可直接复用的模板文件:拷进自己的项目就能上手,不用完整学完,也能立刻提升 AI 的稳定性和可控性。
如果你已经在用 Claude Code 或 Codex 做真实开发,却总觉得 AI 时好时坏、难以复现,这门课很值得花时间看看。
显示更多