TopicDigg
最新
社区
登录
注册
注册并分享邀请链接,可获得视频播放与邀请奖励。
立即注册
与「AI语音」相关的搜索结果
搜索结果
AI语音
AI语音 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含
AI语音
的内容
Punk(2898 🙌💎)
@punk2898
5hours ago
3.3 亿美元,这是在 Stripe 上收入最高的 AI 公司年化收入,但是你可能没有听说过 我研究了 Stripe 上收入最高的 10 家公司,希望对你有用: 1️⃣ ElevenLabs:AI 音频:做 AI 语音合成和克隆的,海外对这块儿的需求是实打实的(只有这一家之前没有听说过) 2️⃣ Midjourney:生成图的,没想到还有人用它,只不过环比跌了 -10%,他的衰落跟他本身没有关系,在于各个大模型公司的模型迭代(必死无疑的公司) 3️⃣ Runway:生成视频的,我以为没人用它了,因为都在用 seedance,但是从数据来看,年化收入高达 9000w 美元,环比增长 36% 挺恐怖的,需要研究一下 4️⃣ Bolt new:这是 AI Web 应用构建器,属于风口上的企业了,这个会越来越好的,底层使用大模型,上层提供增值服务 5️⃣ suno:AI 生成音乐,这不会没有人知道吧?太牛逼了,环比增长 34%,太牛了
显示更多
0
0
3
2
0
转发到社区
宝玉
@dotey
2026.05.05 23:35
最近用微信读书听书,现在 AI 语音的音色是真好,但是多音字识别不准,很多字音都读错了,听着就很出戏! 之前是在喜马拉雅听真人版本,感觉就特别好,后来进度太慢就去听书,但效果就差好多。 按理说以现在大模型的水平能正确识别多音字的,希望能改善好。
显示更多
0
0
47
20
0
转发到社区
郭宇 guoyu.eth
@turingou
2026.04.29 05:19
昨天在新桥做了一次关于 tuwa 实时语音模型的 vibe 分享,我发现声网也好,rokid 也好,很多硬件都在抢占 AI 语音入口这个市场,或者在「后 IoT 时代」 尝试用这种方式接入边缘计算资源,有点2013年深圳创客空间的感觉了
显示更多
0
0
4
85
1
转发到社区
郭宇 guoyu.eth
@turingou
2026.04.29 04:47
昨天在新桥做了一次关于 tuwa 实时语音模型的 vibe 分享,我发现声网也好,rokid 也好,很多硬件都在抢占 AI 语音入口这个市场,或者在「后 IoT 时代」 尝试用这种方式接入边缘计算资源,有点2013年深圳创客空间的感觉了
显示更多
0
0
6
151
1
转发到社区
郭宇 guoyu.eth
@turingou
2026.04.07 02:08
今天正式发布了我的第 13 个 vibe 产品 这款产品比较特殊,它是一个电话服务。准确来说,tuwa 是一个 AI 电话网络,连接着世界上超过 100 种不同语言的人们和互联网上的 agent。 任何人都可以不下载 tuwa 而使用它,你只需要拨打免费的转接热线电话 +1 888 886 2968,告诉它你需要打给哪个号码,tuwa 就会帮助你拨打对应的号码,你说自己的母语,对方听到的却是TA的母语,反过来也是一样。兼容任何电话,对方不需要安装应用。固话、手机,世界上任何一个角落,都可以。 tuwa 支持 100 多种语言的实时翻译,你甚至可以在打电话时随便切换语言和对方对话。除此之外,tuwa 还支持语音克隆,每一通电话,都会让你的 AI 语音听起来更像你。 当然,我也为它设计了方便的 web app,如果你想,可以不通过转接电话而使用 web app 拨打,并设置自己喜欢的声音,使用外呼 agent 拨打电话,连接自己的 agent(例如 openclaw 或者 codex/claude code)并让他们自由的呼入与呼出。 外呼电话 agent 是我最喜欢用的 tuwa 功能,只需要交待清楚事情,比如完成餐厅预订,它就会在你希望的时间主动拨打对方的电话,说明来意,达到目的,并记录和翻译所有对话内容。 tuwa 的使用和收费都很简单,每月免费额度,固定套餐,按需付费。 这个产品的命名灵感来自于日语的「通話 tsuwa」最初,我只是想设计一个能帮我预订餐厅的电话服务,但后来,我在 vibe 的过程中慢慢意识到,世界上仍然有很多人无法体验 AI 带来的变化与便利,而电话,是连接他们最简单与自然的方式。我希望 tuwa 能帮助外语普及率低,偏远地区和第三世界国家的人们体会到这一点。
显示更多
0
0
385
4.1K
493
转发到社区
CryptoMaid加密女仆お嬢様 .edge🦭
@maid_crypto
2026.03.19 03:18
小米今天正式发布了MiMo-V2系列旗舰模型,包括 1.MiMo-V2-Pro:总参数超1T(激活42B),专为Agent场景优化,支持1M超长上下文,全球Artificial Analysis排行榜第8、国内第2。 2.MiMo-V2-Omni:全模态基座模型(文本+图像+视频+音频理解),音频理解能力超Gemini 3 Pro。 3.MiMo-V2-TTS:端到端语音合成模型,支持高保真、多语种、自然情感表达。 (ai语音说话) 相关链接 官方API开放平台(接入、定价、文档): (MiMo-V2-Pro API定价:256K内输入$1/百万tokens、输出$3;1M内输入$2、输出$6。注册后可立即获取Key。) 在线体验平台(MiMo Studio,含MiMo Claw Agent演示,直接免费试用MiMo-V2-Pro的Agent能力): (推荐从这里开始玩,网页端就能体验“养龙虾”式的复杂任务,比如自动生成网站、操控工具等。) 初步评测: Artificial Analysis排行榜:MiMo-V2-Pro全球第8(综合智能指数),国内第二 (强调性价比最高之一,尤其在< $0.15/百万tokens价位段霸榜。) OpenClaw标准评测(PinchBench & ClawEval):MiMo-V2-Pro排名全球顶尖(第三,仅次Claude Sonnet 4.6和Opus 4.6)。在无人工干预下,能完成复杂工作流编排、长程规划、精准工具调用。 1M上下文下支撑真实高强度龙虾应用;早期匿名版“Hunter Alpha”在OpenRouter调用量超1T tokens,多日登顶日榜。 作如何和OpenClaw结合? MiMo-V2-Pro就是专为OpenClaw这类Agent框架深度优化的! 小米官方已宣布联合OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大框架团队,提供一周限时免费接口支持(全球开发者都能白嫖)。结合方式:直接用MiMo API替换Claude/OpenAI Key(兼容OpenAI SDK格式),在OpenClaw的Scaffold(脚手架)里接入即可。 模型针对OpenClaw等框架做了深度SFT + RL强化,工具调用、多步推理、长程规划特别稳。 实际表现:在OpenClaw里能一步生成完整网页、自主处理报错/多标签切换、完成选品比价下单、制作短视频等复杂链路,像真人操作浏览器。 小米自己的扩展:他们还出了Xiaomi miclaw(手机端类OpenClaw系统级Agent),基于MiMo系列,能直接“动手操作手机”。 快速上手建议:去 Claw(内置OpenClaw式演示); 或直接在OpenClaw项目里换API Base为
显示更多
0
0
3
1
0
转发到社区
段少🎵DaDalus
@BinaryHB
2026.03.13 04:52
我做了一个小产品,叫「勇芽」🌱 孩子怕黑、不肯关灯、每晚闹着不敢自己睡——你可能试过陪睡、讲道理、开小夜灯,但都不太管用。想科学引导,又没时间研究怎么做。 我翻了大量儿童恐惧干预的文献,基于认知行为疗法(CBT)设计了这套方案:7 天睡前故事,每晚一集,5-10 分钟,适合 3-6 岁。不用你自己设计流程,也不用学理论,跟着故事读就行。也可以用 AI 语音陪读。 不指望 7 天就完全不怕,但很多孩子听完会迈出第一步——从「必须开灯」到「可以试试关灯」。 现在正在公测阶段,先到先体验,测试期内全部功能免费开放(含 AI 语音包)。 如果你愿意试试,特别欢迎帮我提建议、看看哪里可以做得更好: 👉 ⚡ 安装只要 1 分钟,两步搞定: 1️⃣ 在 App Store 搜「TestFlight」安装(苹果官方的测试工具) 2️⃣ 点上面的链接,按提示安装勇芽 需要 iPhone + iOS 16 以上~
显示更多
0
0
12
47
8
转发到社区
ahhhhfs
@abskoop
2025.09.10 14:35
🎙️ 免费AI语音神器:VoiceCraft 🗣️20+种中文语音任你选,支持文字转语音&语音转文字 👉 #
VoiceCraft
# #
AI语音
# #
TTS工具
#
显示更多
0
0
5
347
100
转发到社区
Bill The Investor
@billtheinvestor
2026.04.27 22:04
微软刚刚发布了一款开源 AI 模型,能够一次性转录长达 60 分钟的音频。该模型支持说话人追踪、长上下文处理以及 50 多种语言,且不会出现导致大多数语音 AI 工具失效的分段问题。
显示更多
0
0
2
11
2
转发到社区
Bill The Investor
@billtheinvestor
2026.04.27 16:18
你的手机刚刚变成了一台声音克隆机。无需云端,无需联网,无需任何权限。只需输入几秒钟的音频——它就能以惊人的准确度重现你的声音……且完全离线运行。这不是演示,这是在设备端实际运行。Neuphonic 推出的 NeuTTS 正在将语音 AI 推向一个新时代: • 仅需几秒音频即可实现即时声音克隆 • 极其逼真的输出,听起来完全像真人 • 在中端手机、笔记本电脑甚至树莓派上都能实时运行 • 原生支持西班牙语 • 轻量化 GGUF 模型 • 100% 本地化 = 数据绝不离开你的设备 这打破了目前 AI 面临的最大瓶颈:对云端的依赖。没有 API,没有订阅,没有监控。我们正在经历从: 云端 AI → 个人 AI 租赁模型 → 自有模型 这种转变发生的速度比人们想象的要快。 语音 AI 不再是你“访问”的对象,而是你“运行”的工具。仓库地址:REPO
显示更多
0
0
5
93
29
转发到社区
加载中...