注册并分享邀请链接,可获得视频播放与邀请奖励。

与「TTS工具」相关的搜索结果

TTS工具 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 TTS工具 的内容
🎙️ 免费AI语音神器:VoiceCraft 🗣️20+种中文语音任你选,支持文字转语音&语音转文字 👉 #VoiceCraft# #AI语音# #TTS工具#
显示更多
0
5
347
100
转发到社区
Text2Voice:基于 Edge TTS 的在线文本转语音工具 输入文本,选择语音,一键生成自然流畅的语音音频
小米今天正式发布了MiMo-V2系列旗舰模型,包括 1.MiMo-V2-Pro:总参数超1T(激活42B),专为Agent场景优化,支持1M超长上下文,全球Artificial Analysis排行榜第8、国内第2。 2.MiMo-V2-Omni:全模态基座模型(文本+图像+视频+音频理解),音频理解能力超Gemini 3 Pro。 3.MiMo-V2-TTS:端到端语音合成模型,支持高保真、多语种、自然情感表达。 (ai语音说话) 相关链接 官方API开放平台(接入、定价、文档): (MiMo-V2-Pro API定价:256K内输入$1/百万tokens、输出$3;1M内输入$2、输出$6。注册后可立即获取Key。) 在线体验平台(MiMo Studio,含MiMo Claw Agent演示,直接免费试用MiMo-V2-Pro的Agent能力): (推荐从这里开始玩,网页端就能体验“养龙虾”式的复杂任务,比如自动生成网站、操控工具等。) 初步评测: Artificial Analysis排行榜:MiMo-V2-Pro全球第8(综合智能指数),国内第二 (强调性价比最高之一,尤其在< $0.15/百万tokens价位段霸榜。) OpenClaw标准评测(PinchBench & ClawEval):MiMo-V2-Pro排名全球顶尖(第三,仅次Claude Sonnet 4.6和Opus 4.6)。在无人工干预下,能完成复杂工作流编排、长程规划、精准工具调用。 1M上下文下支撑真实高强度龙虾应用;早期匿名版“Hunter Alpha”在OpenRouter调用量超1T tokens,多日登顶日榜。 作如何和OpenClaw结合? MiMo-V2-Pro就是专为OpenClaw这类Agent框架深度优化的! 小米官方已宣布联合OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大框架团队,提供一周限时免费接口支持(全球开发者都能白嫖)。结合方式:直接用MiMo API替换Claude/OpenAI Key(兼容OpenAI SDK格式),在OpenClaw的Scaffold(脚手架)里接入即可。 模型针对OpenClaw等框架做了深度SFT + RL强化,工具调用、多步推理、长程规划特别稳。 实际表现:在OpenClaw里能一步生成完整网页、自主处理报错/多标签切换、完成选品比价下单、制作短视频等复杂链路,像真人操作浏览器。 小米自己的扩展:他们还出了Xiaomi miclaw(手机端类OpenClaw系统级Agent),基于MiMo系列,能直接“动手操作手机”。 快速上手建议:去 Claw(内置OpenClaw式演示); 或直接在OpenClaw项目里换API Base为
显示更多
三下五除二 cc 很快写完了工具(从视频音乐分析到结合本地模型生成视频,tts 和音乐都写完了,好家伙!),我分析了下老友记的分镜,效果不错!接下来又像前几个 vibe 项目一样来到了思维的深水区,直接用 AI 模仿很简单,风格化也很简单,难就难在编剧的精髓:如何将叙事智慧与故事脚本结合,寻找独特视角,那么,接下来就是我的思考时间了!
显示更多
0
16
127
6
转发到社区
🌟Introducing🎻Violin — an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most high-quality content (lecture, talk, podcast) is locked behind a single language, leaving global audiences behind. So we built Violin: a video skill that combines speech recognition, LLM translation, and speech synthesis into one seamless pipeline. 🌐 Demo: 📝 Blog: 🔗 GitHub: ✨Key Features: 🎙️High-quality multilingual ASR & Translation & TTS. 🗣️Personalize translation & voice (turn an academic talk into something children can follow). 💬Chat with the video — ask any questions grounded in the video. 🧩Support Web app, CLI, and Agent skill 🍃Fully open-source under MIT. ❤️Built with the wonderful @ShangZhu18 and advised by @james_y_zou ! All features powered by @togethercompute . Try it and let us know what you think! 🎻
显示更多
0
3
51
20
转发到社区
不需要剪辑,不需要找素材,一条命令把 Reddit 热帖变成短视频! 自动抓 Reddit 帖子,TTS 生成旁白,配上 Minecraft / Subway Surfers 之类的背景素材,合成竖屏短视频。子版块、语音、背景音乐都能自定义,NSFW 过滤也做了,通过改一行 config.toml 的配置就能换风格。 配置好 Reddit API 之后 python 一条命令出片,TikTok / YouTube Shorts / Instagram Reels 通吃。 🔗
显示更多
替代已停更的 Questsoft QTranslate,用 Kotlin 重写的桌面翻译套件,支持多引擎插件、OCR、TTS 和全局快捷键。
仅需 8G 显存即可实现 1.7B 参数量 Qwen3-TTS 的全功能部署。这意味着即便是入门级消费级显卡,也能跑通目前最顶尖的语音生成工作流。核心突破点在于三个维度:
显示更多
0
28
122
23
转发到社区
上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练,支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。
显示更多
0
25
91
8
转发到社区
Parlor 实现本地实时语音与视觉对话。通过 Gemma 4 E2B + Kokoro TTS 架构,实现全程本地推理,不依赖云端 API。M3 Pro 上端到端延迟 2.5-3 秒,支持打断、免按键及句子级 TTS 流式输出。占用内存约 3GB,集成 Silero VAD 浏览器端检测,支持摄像头与麦克风双模态。
显示更多
0
23
203
35
转发到社区