Joruno (@wsl8297) — TopicDigg

2026.05.19 06:01

在 GitHub 上发现一个开源的视频翻译工具：Violin。上传视频，自动识别语音、翻译、合成目标语言的配音，再混回视频里，完全对齐，还能输出 SRT 字幕。 GitHub：在线体验：核心功能： - 支持 33 种目标语言，16 种常用语言配有精选母语配音（Cartesia Sonic 3 + ElevenLabs） - 视频内 Q&A：可以对配音后的视频任意时刻提问，答案基于附近字幕和采样帧 - 自然语言选声音：描述想要的声音类型，LLM 从语音库里自动挑选 - 6 种风格预设：标准、儿童、学术、休闲、讲故事、新闻 - 可插拔架构：Together / OpenAI / ElevenLabs 各阶段可互换，一个 YAML 配置搞定工作流程：视频 → ffmpeg 提取音频 → Whisper Large v3 识别词级时间戳 → DeepSeek V4 Pro 翻译 → Cartesia Sonic 3 合成配音 → ffmpeg 速度对齐视频、拼接、编码 → 输出 mp4 + 可选 SRT 配置灵活，只需覆盖 YAML 里想改的键值： - 转录：Together / OpenAI - 翻译：Together / OpenAI - TTS：Together / ElevenLabs / OpenAI 风格预设示例： - standard：忠实翻译，自然语音 - kids：改写成 7 岁孩子能听懂的，语速正常，兴奋情绪 - academic：正式用语，保留术语和敬语，语速 0.95 倍，平静情绪 - casual：口语化俚语、缩略、友好，语速 1.1 倍 - storyteller：生动戏剧化叙述，语速 0.9 倍，热情情绪 - news：简洁、陈述式、播报风格，语速正常，中性情绪

显示更多

转发到社区

Joruno@wsl8297

2026.05.18 13:02

分享一个 GitHub 上开源且免费的浏览器插件：MultiPost。把你要发布的内容一键同步到多个社交平台：微博、知乎、小红书等十多个主流平台，省去重复粘贴的时间。 GitHub：官网：支持文字、图片、视频等多种形式；还能自动抓取网页内容、定时发布，并结合 AI 辅助生成内容，让多平台分发更高效、更省心。

显示更多

转发到社区

Joruno@wsl8297

2026.05.17 10:56

逛 GitHub 时挖到一个真·宝藏开源项目：12-Factor Agents。它把「AI Agent 应用怎么做才像工程、能上线」这件事，浓缩成 12 条核心设计原则，GitHub 已拿下 11k+ Star。这套原则不是拍脑袋总结，而是作者与上百位技术创始人深度交流后提炼出的可执行方法论。覆盖上下文管理、工具调用、状态建模、控制流设计、错误收敛、模块化架构等关键环节，讲的不是概念，而是能直接落地的工程做法。 GitHub：你将收获： - 12 条核心原则：从自然语言交互到工具编排、状态与错误处理的全链路指导 - 生产级设计模式：来自真实项目的架构套路与最佳实践 - 模块化思路：把 agent 拆成可复用、可组合的独立模块 - 实战案例：完整流程 + 常见坑位与解决方案 - 框架无关：不绑任何特定技术栈，怎么做都能套用还附带清晰的视觉图解和深度讲解，适合边学边搭。希望能帮你把 agent 从 demo 做到可投产的 AI 产品。

显示更多

604

107

转发到社区

Joruno@wsl8297

2026.04.28 00:57

在 GitHub 上挖到一门很实用的开源课：Learn Harness Engineering，专门教你给 AI 编程助手搭一套更可靠的“工作台”。它把 AI 协作拆成五个关键机制：指令、状态、验证、范围、会话，让每次任务都可追踪、可续接、可验证，不再靠运气出结果。 GitHub：官网：课程结构很清晰：12 节理论 + 6 个实战项目，用同一个桌面应用贯穿推进，边做边演进。从最基础的对比实验起步，逐步把整套工作环境搭起来；每个项目的产出，直接接到下一个项目继续用，越做越稳。更贴心的是，它还提供可直接复用的模板文件：拷进自己的项目就能上手，不用完整学完，也能立刻提升 AI 的稳定性和可控性。如果你已经在用 Claude Code 或 Codex 做真实开发，却总觉得 AI 时好时坏、难以复现，这门课很值得花时间看看。

显示更多