搜索 AI语音相关的推文与用户

5hours ago

3.3 亿美元，这是在 Stripe 上收入最高的 AI 公司年化收入，但是你可能没有听说过我研究了 Stripe 上收入最高的 10 家公司，希望对你有用： 1️⃣ ElevenLabs：AI 音频：做 AI 语音合成和克隆的，海外对这块儿的需求是实打实的（只有这一家之前没有听说过） 2️⃣ Midjourney：生成图的，没想到还有人用它，只不过环比跌了 -10%，他的衰落跟他本身没有关系，在于各个大模型公司的模型迭代（必死无疑的公司） 3️⃣ Runway：生成视频的，我以为没人用它了，因为都在用 seedance，但是从数据来看，年化收入高达 9000w 美元，环比增长 36% 挺恐怖的，需要研究一下 4️⃣ Bolt new：这是 AI Web 应用构建器，属于风口上的企业了，这个会越来越好的，底层使用大模型，上层提供增值服务 5️⃣ suno：AI 生成音乐，这不会没有人知道吧？太牛逼了，环比增长 34%，太牛了

显示更多

0

3

2

0

转发到社区

宝玉@dotey

2026.05.05 23:35

最近用微信读书听书，现在 AI 语音的音色是真好，但是多音字识别不准，很多字音都读错了，听着就很出戏！之前是在喜马拉雅听真人版本，感觉就特别好，后来进度太慢就去听书，但效果就差好多。按理说以现在大模型的水平能正确识别多音字的，希望能改善好。

显示更多

0

47

20

0

转发到社区

郭宇 guoyu.eth@turingou

2026.04.29 05:19

昨天在新桥做了一次关于 tuwa 实时语音模型的 vibe 分享，我发现声网也好，rokid 也好，很多硬件都在抢占 AI 语音入口这个市场，或者在「后 IoT 时代」尝试用这种方式接入边缘计算资源，有点2013年深圳创客空间的感觉了

显示更多

0

4

85

1

转发到社区

郭宇 guoyu.eth@turingou

2026.04.29 04:47

昨天在新桥做了一次关于 tuwa 实时语音模型的 vibe 分享，我发现声网也好，rokid 也好，很多硬件都在抢占 AI 语音入口这个市场，或者在「后 IoT 时代」尝试用这种方式接入边缘计算资源，有点2013年深圳创客空间的感觉了

显示更多

0

6

151

1

转发到社区

郭宇 guoyu.eth@turingou

2026.04.07 02:08

今天正式发布了我的第 13 个 vibe 产品这款产品比较特殊，它是一个电话服务。准确来说，tuwa 是一个 AI 电话网络，连接着世界上超过 100 种不同语言的人们和互联网上的 agent。任何人都可以不下载 tuwa 而使用它，你只需要拨打免费的转接热线电话 +1 888 886 2968，告诉它你需要打给哪个号码，tuwa 就会帮助你拨打对应的号码，你说自己的母语，对方听到的却是TA的母语，反过来也是一样。兼容任何电话，对方不需要安装应用。固话、手机，世界上任何一个角落，都可以。 tuwa 支持 100 多种语言的实时翻译，你甚至可以在打电话时随便切换语言和对方对话。除此之外，tuwa 还支持语音克隆，每一通电话，都会让你的 AI 语音听起来更像你。当然，我也为它设计了方便的 web app，如果你想，可以不通过转接电话而使用 web app 拨打，并设置自己喜欢的声音，使用外呼 agent 拨打电话，连接自己的 agent（例如 openclaw 或者 codex/claude code）并让他们自由的呼入与呼出。外呼电话 agent 是我最喜欢用的 tuwa 功能，只需要交待清楚事情，比如完成餐厅预订，它就会在你希望的时间主动拨打对方的电话，说明来意，达到目的，并记录和翻译所有对话内容。 tuwa 的使用和收费都很简单，每月免费额度，固定套餐，按需付费。这个产品的命名灵感来自于日语的「通話 tsuwa」最初，我只是想设计一个能帮我预订餐厅的电话服务，但后来，我在 vibe 的过程中慢慢意识到，世界上仍然有很多人无法体验 AI 带来的变化与便利，而电话，是连接他们最简单与自然的方式。我希望 tuwa 能帮助外语普及率低，偏远地区和第三世界国家的人们体会到这一点。

显示更多

0

385

4.1K

493

转发到社区

CryptoMaid加密女仆お嬢様 .edge🦭@maid_crypto

2026.03.19 03:18

小米今天正式发布了MiMo-V2系列旗舰模型，包括 1.MiMo-V2-Pro：总参数超1T（激活42B），专为Agent场景优化，支持1M超长上下文，全球Artificial Analysis排行榜第8、国内第2。 2.MiMo-V2-Omni：全模态基座模型（文本+图像+视频+音频理解），音频理解能力超Gemini 3 Pro。 3.MiMo-V2-TTS：端到端语音合成模型，支持高保真、多语种、自然情感表达。（ai语音说话）相关链接官方API开放平台（接入、定价、文档）：（MiMo-V2-Pro API定价：256K内输入$1/百万tokens、输出$3；1M内输入$2、输出$6。注册后可立即获取Key。）在线体验平台（MiMo Studio，含MiMo Claw Agent演示，直接免费试用MiMo-V2-Pro的Agent能力）：（推荐从这里开始玩，网页端就能体验“养龙虾”式的复杂任务，比如自动生成网站、操控工具等。）初步评测： Artificial Analysis排行榜：MiMo-V2-Pro全球第8（综合智能指数），国内第二（强调性价比最高之一，尤其在< $0.15/百万tokens价位段霸榜。） OpenClaw标准评测（PinchBench & ClawEval）：MiMo-V2-Pro排名全球顶尖（第三，仅次Claude Sonnet 4.6和Opus 4.6）。在无人工干预下，能完成复杂工作流编排、长程规划、精准工具调用。 1M上下文下支撑真实高强度龙虾应用；早期匿名版“Hunter Alpha”在OpenRouter调用量超1T tokens，多日登顶日榜。作如何和OpenClaw结合？ MiMo-V2-Pro就是专为OpenClaw这类Agent框架深度优化的！小米官方已宣布联合OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大框架团队，提供一周限时免费接口支持（全球开发者都能白嫖）。结合方式：直接用MiMo API替换Claude/OpenAI Key（兼容OpenAI SDK格式），在OpenClaw的Scaffold（脚手架）里接入即可。模型针对OpenClaw等框架做了深度SFT + RL强化，工具调用、多步推理、长程规划特别稳。实际表现：在OpenClaw里能一步生成完整网页、自主处理报错/多标签切换、完成选品比价下单、制作短视频等复杂链路，像真人操作浏览器。小米自己的扩展：他们还出了Xiaomi miclaw（手机端类OpenClaw系统级Agent），基于MiMo系列，能直接“动手操作手机”。快速上手建议：去 Claw（内置OpenClaw式演示）；或直接在OpenClaw项目里换API Base为

显示更多

0

3

1

0

转发到社区

段少🎵DaDalus@BinaryHB

2026.03.13 04:52

我做了一个小产品，叫「勇芽」🌱 孩子怕黑、不肯关灯、每晚闹着不敢自己睡——你可能试过陪睡、讲道理、开小夜灯，但都不太管用。想科学引导，又没时间研究怎么做。我翻了大量儿童恐惧干预的文献，基于认知行为疗法（CBT）设计了这套方案：7 天睡前故事，每晚一集，5-10 分钟，适合 3-6 岁。不用你自己设计流程，也不用学理论，跟着故事读就行。也可以用 AI 语音陪读。不指望 7 天就完全不怕，但很多孩子听完会迈出第一步——从「必须开灯」到「可以试试关灯」。现在正在公测阶段，先到先体验，测试期内全部功能免费开放（含 AI 语音包）。如果你愿意试试，特别欢迎帮我提建议、看看哪里可以做得更好： 👉 ⚡ 安装只要 1 分钟，两步搞定： 1️⃣ 在 App Store 搜「TestFlight」安装（苹果官方的测试工具） 2️⃣ 点上面的链接，按提示安装勇芽需要 iPhone + iOS 16 以上～

显示更多

0

12

47

8

转发到社区

ahhhhfs@abskoop

2025.09.10 14:35

🎙️ 免费AI语音神器：VoiceCraft 🗣️20+种中文语音任你选，支持文字转语音&语音转文字 👉 #VoiceCraft# #AI语音# #TTS工具#

显示更多

0

5

347

100

转发到社区

Bill The Investor@billtheinvestor

2026.04.27 22:04

微软刚刚发布了一款开源 AI 模型，能够一次性转录长达 60 分钟的音频。该模型支持说话人追踪、长上下文处理以及 50 多种语言，且不会出现导致大多数语音 AI 工具失效的分段问题。

显示更多

0

2

11

2

转发到社区

Bill The Investor@billtheinvestor

2026.04.27 16:18

你的手机刚刚变成了一台声音克隆机。无需云端，无需联网，无需任何权限。只需输入几秒钟的音频——它就能以惊人的准确度重现你的声音……且完全离线运行。这不是演示，这是在设备端实际运行。Neuphonic 推出的 NeuTTS 正在将语音 AI 推向一个新时代： • 仅需几秒音频即可实现即时声音克隆 • 极其逼真的输出，听起来完全像真人 • 在中端手机、笔记本电脑甚至树莓派上都能实时运行 • 原生支持西班牙语 • 轻量化 GGUF 模型 • 100% 本地化 = 数据绝不离开你的设备这打破了目前 AI 面临的最大瓶颈：对云端的依赖。没有 API，没有订阅，没有监控。我们正在经历从：云端 AI → 个人 AI 租赁模型 → 自有模型这种转变发生的速度比人们想象的要快。语音 AI 不再是你“访问”的对象，而是你“运行”的工具。仓库地址：REPO

显示更多

0

5

93

29

转发到社区

与「AI语音」相关的搜索结果