搜索 TTS工具相关的推文与用户

ahhhhfs@abskoop

2025.09.10 14:35

🎙️ 免费AI语音神器：VoiceCraft 🗣️20+种中文语音任你选，支持文字转语音&语音转文字 👉 #VoiceCraft# #AI语音# #TTS工具#

显示更多

0

5

347

100

转发到社区

ahhhhfs@abskoop

2026.03.30 15:23

Text2Voice：基于 Edge TTS 的在线文本转语音工具输入文本，选择语音，一键生成自然流畅的语音音频

0

1

10

3

转发到社区

CryptoMaid加密女仆お嬢様 .edge🦭@maid_crypto

2026.03.19 03:18

小米今天正式发布了MiMo-V2系列旗舰模型，包括 1.MiMo-V2-Pro：总参数超1T（激活42B），专为Agent场景优化，支持1M超长上下文，全球Artificial Analysis排行榜第8、国内第2。 2.MiMo-V2-Omni：全模态基座模型（文本+图像+视频+音频理解），音频理解能力超Gemini 3 Pro。 3.MiMo-V2-TTS：端到端语音合成模型，支持高保真、多语种、自然情感表达。（ai语音说话）相关链接官方API开放平台（接入、定价、文档）：（MiMo-V2-Pro API定价：256K内输入$1/百万tokens、输出$3；1M内输入$2、输出$6。注册后可立即获取Key。）在线体验平台（MiMo Studio，含MiMo Claw Agent演示，直接免费试用MiMo-V2-Pro的Agent能力）：（推荐从这里开始玩，网页端就能体验“养龙虾”式的复杂任务，比如自动生成网站、操控工具等。）初步评测： Artificial Analysis排行榜：MiMo-V2-Pro全球第8（综合智能指数），国内第二（强调性价比最高之一，尤其在< $0.15/百万tokens价位段霸榜。） OpenClaw标准评测（PinchBench & ClawEval）：MiMo-V2-Pro排名全球顶尖（第三，仅次Claude Sonnet 4.6和Opus 4.6）。在无人工干预下，能完成复杂工作流编排、长程规划、精准工具调用。 1M上下文下支撑真实高强度龙虾应用；早期匿名版“Hunter Alpha”在OpenRouter调用量超1T tokens，多日登顶日榜。作如何和OpenClaw结合？ MiMo-V2-Pro就是专为OpenClaw这类Agent框架深度优化的！小米官方已宣布联合OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大框架团队，提供一周限时免费接口支持（全球开发者都能白嫖）。结合方式：直接用MiMo API替换Claude/OpenAI Key（兼容OpenAI SDK格式），在OpenClaw的Scaffold（脚手架）里接入即可。模型针对OpenClaw等框架做了深度SFT + RL强化，工具调用、多步推理、长程规划特别稳。实际表现：在OpenClaw里能一步生成完整网页、自主处理报错/多标签切换、完成选品比价下单、制作短视频等复杂链路，像真人操作浏览器。小米自己的扩展：他们还出了Xiaomi miclaw（手机端类OpenClaw系统级Agent），基于MiMo系列，能直接“动手操作手机”。快速上手建议：去 Claw（内置OpenClaw式演示）；或直接在OpenClaw项目里换API Base为

显示更多

0

3

1

0

转发到社区

郭宇 guoyu.eth@turingou

2026.01.26 03:22

三下五除二 cc 很快写完了工具（从视频音乐分析到结合本地模型生成视频，tts 和音乐都写完了，好家伙！)，我分析了下老友记的分镜，效果不错！接下来又像前几个 vibe 项目一样来到了思维的深水区，直接用 AI 模仿很简单，风格化也很简单，难就难在编剧的精髓：如何将叙事智慧与故事脚本结合，寻找独特视角，那么，接下来就是我的思考时间了！

显示更多

0

16

127

6

转发到社区

Kevin Lin@KevinQHLin

2026.05.14 20:31

🌟Introducing🎻Violin — an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most high-quality content (lecture, talk, podcast) is locked behind a single language, leaving global audiences behind. So we built Violin: a video skill that combines speech recognition, LLM translation, and speech synthesis into one seamless pipeline. 🌐 Demo: 📝 Blog: 🔗 GitHub: ✨Key Features: 🎙️High-quality multilingual ASR & Translation & TTS. 🗣️Personalize translation & voice (turn an academic talk into something children can follow). 💬Chat with the video — ask any questions grounded in the video. 🧩Support Web app, CLI, and Agent skill 🍃Fully open-source under MIT. ❤️Built with the wonderful @ShangZhu18 and advised by @james_y_zou ! All features powered by @togethercompute . Try it and let us know what you think! 🎻

显示更多

0

3

51

20

转发到社区

出海去孵化器@chuhaiqu

2026.05.13 04:00

不需要剪辑，不需要找素材，一条命令把 Reddit 热帖变成短视频！自动抓 Reddit 帖子，TTS 生成旁白，配上 Minecraft / Subway Surfers 之类的背景素材，合成竖屏短视频。子版块、语音、背景音乐都能自定义，NSFW 过滤也做了，通过改一行 config.toml 的配置就能换风格。配置好 Reddit API 之后 python 一条命令出片，TikTok / YouTube Shorts / Instagram Reels 通吃。 🔗

显示更多

0

1

5

1

转发到社区

Geek@geekbb

2026.05.13 01:15

替代已停更的 Questsoft QTranslate，用 Kotlin 重写的桌面翻译套件，支持多引擎插件、OCR、TTS 和全局快捷键。

0

2

1

转发到社区

Bill The Investor@billtheinvestor

2026.05.08 03:19

仅需 8G 显存即可实现 1.7B 参数量 Qwen3-TTS 的全功能部署。这意味着即便是入门级消费级显卡，也能跑通目前最顶尖的语音生成工作流。核心突破点在于三个维度：

显示更多

0

28

122

23

转发到社区

Bill The Investor@billtheinvestor

2026.05.08 01:09

上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练，支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。

显示更多

0

25

91

8

转发到社区

Bill The Investor@billtheinvestor

2026.05.08 00:53

Parlor 实现本地实时语音与视觉对话。通过 Gemma 4 E2B + Kokoro TTS 架构，实现全程本地推理，不依赖云端 API。M3 Pro 上端到端延迟 2.5-3 秒，支持打断、免按键及句子级 TTS 流式输出。占用内存约 3GB，集成 Silero VAD 浏览器端检测，支持摄像头与麦克风双模态。

显示更多

0

23

203

35

转发到社区

与「TTS工具」相关的搜索结果