搜索 ElevenLabs 相关的推文与用户

2026.05.23 01:33

这些蛀虫，从2024年就开始每个月扣钱，每个月都被自动扣走1000多，一直没看账单都是自动就还款。自动扣款骗局这是，甚至有的还设置“暂时取消订阅”和“取消订阅”，暂时取消订阅一般字很小，然后两三个月就自己又重新订阅了！！刚把爱奇艺，腾讯视频，keep，微博，ins，apple music，paramount，网盘，Medium，网飞，ElevenLabs，TweetDelete，cream，Tradezella，Scribd，uber还有亲情卡等等二三十个都退订了。各位也应该自检一下，每个月蛀虫扣的钱能吃一个月高级猪脚饭了😮‍💨

显示更多

0

2

1

转发到社区

Sumanth@Sumanth_077

2026.05.21 13:46

Open-source framework for building real-time voice AI agents! Pipecat is a Python framework for orchestrating audio, video, AI services, transports, and conversation pipelines. Voice-first architecture with pluggable components. What you can build: voice assistants, AI companions, multimodal interfaces, interactive storytelling, business agents (customer support, intake), and complex dialog systems. The framework handles speech recognition, text-to-speech, conversation logic, and real-time interaction. WebRTC and WebSocket transport built in. Ultra-low latency for natural conversations. Why Pipecat: • Voice-first: Integrates STT, TTS, and conversation handling in one framework • Pluggable: Supports multiple AI service providers for each capability • Composable pipelines: Build complex behavior from modular components • Real-time: Low-latency interaction with streaming audio/video Supported services: • Speech-to-Text: Deepgram, AssemblyAI, OpenAI Whisper, Groq, Azure, AWS, Google, and more • LLMs: OpenAI, Anthropic, Gemini, Groq, Mistral, Ollama, AWS, Azure, and more • Text-to-Speech: OpenAI, ElevenLabs, Deepgram, Cartesia, Azure, AWS, Google, and more • Speech-to-Speech: OpenAI Realtime, Gemini Multimodal Live, AWS Nova Sonic, Ultravox, Grok Voice Agent 10.3k+ stars on GitHub. I've shared link to the repo in the comments!

显示更多

0

3

7

6

转发到社区

余温@gkxspace

2026.05.20 13:04

我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码可算找到了一个活菩萨，阶跃星辰的 Step Plan，一个月6.99美金，根本用不完，就这样，我把其他的陆续停了。一个订阅里有各类模型，还都是 TOP级： 1、LLM：Step 3.5 Flash，模型延迟低到离谱，也可以接入Claude / Cursor / Cline 2、TTS：stepaudio-2.5-tts(查了一下，排名比 ElevenLabs 高) 3、ASR：实时语音对话,支持音色复刻 4、生图：文生图 + 图像编辑，0.7 秒出图全部 OpenAI SDK 直连，换一行 base_url。下面给大家一些案例吧（详情放评论区）： 1、英文录音 → 54 秒出中文笔记 2、英文长文 → 双人对谈 mp3 通勤听 3、同一段话 → TTS 演 7 种情绪 4、鲁迅《孔乙己》→ 自动拆角色的有声书 5、英文播客 → 端到端中文重制版 @StepFun_ai

显示更多

0

11

29

6

转发到社区

阑夕@foxshuo

2026.05.20 05:28

虽然提前偷跑了那么多信息，但这届Google I/O还是堪称量大管饱啊⋯⋯家底厚实就是可以为所欲为。不睡觉的媒体总结已经全网都是了，我提几个自己划线的重点： - Gemini Omni的全模态架构应该会在一年内被所有大厂跟进，可能只有Anthropic这种极致的偏才可以无视； - 首发的Gemini Omni Flash只有一个产品可以免费体验，就是YouTube Shorts，Google为了扶持短视频真是倾尽所有的特权啊； - 1000美金不到的Token成本，让Gemini 3.5 Flash自己跑了12个小时，写出了一个可运行的操作系统，这个演示堪称天秀； - 所以可想而知Token的市场还会指数级增长，Gemini的产品侧加上API总计日均消耗134万亿Token，可以说是富可敌国了，作为参照，中国3月的数据是全国日均消耗140万亿Token； - Gemini的月活9亿，还差一步就可以跻身Google旗下的「黄金产品线」，也就是以10亿月活为入场门票的基准，目前已经有12个了，如果不出意外，Gemini会在今年成为第13个； - 第八代TPU第一次有了双芯片架构，一片支持训练，一片支持推理，对英伟达苦心营造的叙事——「TPU固然适合推理，训练还是得靠GPU」——唱出反调； - 「Ask YouTube」是我最喜欢的一个易用性功能，非常简单粗暴的去搜索化，新一代网民会生活在一个原生对话的环境里，想看什么，直接问就可以了，YouTube属于Google非常核心的资产，而且一定会越来越重要； - AI图片的隐形水印通用标准SynthID把OpenAI、Kakao、ElevenLabs都拉了进来，TikTok也即将加入，图片、声音、视频的Fake溯源基本能覆盖到主流生成产品了，「这是AI图吗」的疑问能有地方给解答； - 什么？你说Google I/O不是给Anroird开发者办的活动吗？Android是谁？真不熟⋯⋯

显示更多

0

12

138

17

转发到社区

Joruno@wsl8297

2026.05.19 06:01

在 GitHub 上发现一个开源的视频翻译工具：Violin。上传视频，自动识别语音、翻译、合成目标语言的配音，再混回视频里，完全对齐，还能输出 SRT 字幕。 GitHub：在线体验：核心功能： - 支持 33 种目标语言，16 种常用语言配有精选母语配音（Cartesia Sonic 3 + ElevenLabs） - 视频内 Q&A：可以对配音后的视频任意时刻提问，答案基于附近字幕和采样帧 - 自然语言选声音：描述想要的声音类型，LLM 从语音库里自动挑选 - 6 种风格预设：标准、儿童、学术、休闲、讲故事、新闻 - 可插拔架构：Together / OpenAI / ElevenLabs 各阶段可互换，一个 YAML 配置搞定工作流程：视频 → ffmpeg 提取音频 → Whisper Large v3 识别词级时间戳 → DeepSeek V4 Pro 翻译 → Cartesia Sonic 3 合成配音 → ffmpeg 速度对齐视频、拼接、编码 → 输出 mp4 + 可选 SRT 配置灵活，只需覆盖 YAML 里想改的键值： - 转录：Together / OpenAI - 翻译：Together / OpenAI - TTS：Together / ElevenLabs / OpenAI 风格预设示例： - standard：忠实翻译，自然语音 - kids：改写成 7 岁孩子能听懂的，语速正常，兴奋情绪 - academic：正式用语，保留术语和敬语，语速 0.95 倍，平静情绪 - casual：口语化俚语、缩略、友好，语速 1.1 倍 - storyteller：生动戏剧化叙述，语速 0.9 倍，热情情绪 - news：简洁、陈述式、播报风格，语速正常，中性情绪

显示更多

0

3

7

1

转发到社区

Punk（2898 🙌💎）@punk2898

2026.05.15 09:47

3.3 亿美元，这是在 Stripe 上收入最高的 AI 公司年化收入，但是你可能没有听说过我研究了 Stripe 上收入最高的 10 家公司，希望对你有用： 1️⃣ ElevenLabs：AI 音频：做 AI 语音合成和克隆的，海外对这块儿的需求是实打实的（只有这一家之前没有听说过） 2️⃣ Midjourney：生成图的，没想到还有人用它，只不过环比跌了 -10%，他的衰落跟他本身没有关系，在于各个大模型公司的模型迭代（必死无疑的公司） 3️⃣ Runway：生成视频的，我以为没人用它了，因为都在用 seedance，但是从数据来看，年化收入高达 9000w 美元，环比增长 36% 挺恐怖的，需要研究一下 4️⃣ Bolt new：这是 AI Web 应用构建器，属于风口上的企业了，这个会越来越好的，底层使用大模型，上层提供增值服务 5️⃣ suno：AI 生成音乐，这不会没有人知道吧？太牛逼了，环比增长 34%，太牛了

显示更多

0

3

2

0

转发到社区

ElevenLabs Developers@ElevenLabsDevs

2026.05.14 20:35

Introducing ElevenLabs Devs, a new YouTube channel for AI engineers. Expect deep dives, demos, and clear explanations of key concepts across Text to Speech, Speech to Text, ElevenAgents, and broader AI systems. Subscribe:

显示更多

0

5

331

38

转发到社区

Bill The Investor@billtheinvestor

2026.05.07 15:42

这家伙实现了一个无人出镜 YouTube 频道的自动化运营，上个月赚了 11,833 美元。他不是根据兴趣，而是根据 RPM（每千次展示收益）来选择领域。整套工具链成本仅为 25 美元： > Claude - 脚本 + 元数据（20 美元/月） > ElevenLabs - 配音（5 美元/月入门版） > CapCut - 剪辑（免费） > Canva - 封面图（免费） > Pexels - 素材库（免费）每月 39.7 万次播放，每周仅需 3 小时维护。一个 Claude 提示词就能完成 90% 的工作： > 全英文口语化脚本 > 脚本内嵌视觉场景标签 > 视频时长、标题变体、封面构思唯一需要手动操作的步骤是决定下一期做哪个视频，这才是频道成败的关键所在。

显示更多

0

22

465

120

转发到社区

alenque天一@alenque82

2026.05.03 05:59

别再只把 AI 当聊天机器人了，那太浪费。这 11 个工具才是 2026 年真正的生产力核心： 🧠 解决硬核问题：Claude 🔍 深度研究：Perplexity 🎬 视频全案：Klingai + Capcut 🏗️ 3D 建模：Tripo AI 🎵 音乐/声音：Suno + ElevenLabs ✍️ 满分写作：Gemini 🎨 视觉设计：Canva 📺 视频课代表：Youlearn 🎙️ 播客神器：Descript 收藏这篇，别等急用的时候找不到。你最近在用哪一个？👇

显示更多

0

1

0

转发到社区

Bill The Investor@billtheinvestor

2026.05.01 13:12

大家可以去 ElevenLabs 的官方 Demo 页面试一下同款模型，重点测试一下在嘈杂背景音下，它对长指令解析的稳定性。

0

转发到社区

与「ElevenLabs」相关的搜索结果