注册并分享邀请链接,可获得视频播放与邀请奖励。

与「ElevenLabs」相关的搜索结果

ElevenLabs 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 ElevenLabs 的内容
这些蛀虫,从2024年就开始每个月扣钱,每个月都被自动扣走1000多,一直没看账单都是自动就还款。 自动扣款骗局这是,甚至有的还设置“暂时取消订阅”和“取消订阅”,暂时取消订阅一般字很小,然后两三个月就自己又重新订阅了!! 刚把爱奇艺,腾讯视频,keep,微博,ins,apple music,paramount,网盘,Medium,网飞,ElevenLabs,TweetDelete,cream,Tradezella,Scribd,uber还有亲情卡等等二三十个都退订了。 各位也应该自检一下,每个月蛀虫扣的钱能吃一个月高级猪脚饭了😮‍💨
显示更多
Open-source framework for building real-time voice AI agents! Pipecat is a Python framework for orchestrating audio, video, AI services, transports, and conversation pipelines. Voice-first architecture with pluggable components. What you can build: voice assistants, AI companions, multimodal interfaces, interactive storytelling, business agents (customer support, intake), and complex dialog systems. The framework handles speech recognition, text-to-speech, conversation logic, and real-time interaction. WebRTC and WebSocket transport built in. Ultra-low latency for natural conversations. Why Pipecat: • Voice-first: Integrates STT, TTS, and conversation handling in one framework • Pluggable: Supports multiple AI service providers for each capability • Composable pipelines: Build complex behavior from modular components • Real-time: Low-latency interaction with streaming audio/video Supported services: • Speech-to-Text: Deepgram, AssemblyAI, OpenAI Whisper, Groq, Azure, AWS, Google, and more • LLMs: OpenAI, Anthropic, Gemini, Groq, Mistral, Ollama, AWS, Azure, and more • Text-to-Speech: OpenAI, ElevenLabs, Deepgram, Cartesia, Azure, AWS, Google, and more • Speech-to-Speech: OpenAI Realtime, Gemini Multimodal Live, AWS Nova Sonic, Ultravox, Grok Voice Agent 10.3k+ stars on GitHub. I've shared link to the repo in the comments!
显示更多
我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样 我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码 可算找到了一个活菩萨,阶跃星辰的 Step Plan,一个月6.99美金,根本用不完,就这样,我把其他的陆续停了。 一个订阅里有各类模型,还都是 TOP级: 1、LLM:Step 3.5 Flash,模型延迟低到离谱,也可以接入Claude / Cursor / Cline 2、TTS:stepaudio-2.5-tts(查了一下,排名比 ElevenLabs 高) 3、ASR:实时语音对话,支持音色复刻 4、生图:文生图 + 图像编辑,0.7 秒出图 全部 OpenAI SDK 直连,换一行 base_url。 下面给大家一些案例吧(详情放评论区): 1、英文录音 → 54 秒出中文笔记 2、英文长文 → 双人对谈 mp3 通勤听 3、同一段话 → TTS 演 7 种情绪 4、鲁迅《孔乙己》→ 自动拆角色的有声书 5、英文播客 → 端到端中文重制版 @StepFun_ai
显示更多
0
11
29
6
转发到社区
虽然提前偷跑了那么多信息,但这届Google I/O还是堪称量大管饱啊⋯⋯家底厚实就是可以为所欲为。 不睡觉的媒体总结已经全网都是了,我提几个自己划线的重点: - Gemini Omni的全模态架构应该会在一年内被所有大厂跟进,可能只有Anthropic这种极致的偏才可以无视; - 首发的Gemini Omni Flash只有一个产品可以免费体验,就是YouTube Shorts,Google为了扶持短视频真是倾尽所有的特权啊; - 1000美金不到的Token成本,让Gemini 3.5 Flash自己跑了12个小时,写出了一个可运行的操作系统,这个演示堪称天秀; - 所以可想而知Token的市场还会指数级增长,Gemini的产品侧加上API总计日均消耗134万亿Token,可以说是富可敌国了,作为参照,中国3月的数据是全国日均消耗140万亿Token; - Gemini的月活9亿,还差一步就可以跻身Google旗下的「黄金产品线」,也就是以10亿月活为入场门票的基准,目前已经有12个了,如果不出意外,Gemini会在今年成为第13个; - 第八代TPU第一次有了双芯片架构,一片支持训练,一片支持推理,对英伟达苦心营造的叙事——「TPU固然适合推理,训练还是得靠GPU」——唱出反调; - 「Ask YouTube」是我最喜欢的一个易用性功能,非常简单粗暴的去搜索化,新一代网民会生活在一个原生对话的环境里,想看什么,直接问就可以了,YouTube属于Google非常核心的资产,而且一定会越来越重要; - AI图片的隐形水印通用标准SynthID把OpenAI、Kakao、ElevenLabs都拉了进来,TikTok也即将加入,图片、声音、视频的Fake溯源基本能覆盖到主流生成产品了,「这是AI图吗」的疑问能有地方给解答; - 什么?你说Google I/O不是给Anroird开发者办的活动吗?Android是谁?真不熟⋯⋯
显示更多
0
12
138
17
转发到社区
在 GitHub 上发现一个开源的视频翻译工具:Violin。上传视频,自动识别语音、翻译、合成目标语言的配音,再混回视频里,完全对齐,还能输出 SRT 字幕。 GitHub: 在线体验: 核心功能: - 支持 33 种目标语言,16 种常用语言配有精选母语配音(Cartesia Sonic 3 + ElevenLabs) - 视频内 Q&A:可以对配音后的视频任意时刻提问,答案基于附近字幕和采样帧 - 自然语言选声音:描述想要的声音类型,LLM 从语音库里自动挑选 - 6 种风格预设:标准、儿童、学术、休闲、讲故事、新闻 - 可插拔架构:Together / OpenAI / ElevenLabs 各阶段可互换,一个 YAML 配置搞定 工作流程: 视频 → ffmpeg 提取音频 → Whisper Large v3 识别词级时间戳 → DeepSeek V4 Pro 翻译 → Cartesia Sonic 3 合成配音 → ffmpeg 速度对齐视频、拼接、编码 → 输出 mp4 + 可选 SRT 配置灵活,只需覆盖 YAML 里想改的键值: - 转录:Together / OpenAI - 翻译:Together / OpenAI - TTS:Together / ElevenLabs / OpenAI 风格预设示例: - standard:忠实翻译,自然语音 - kids:改写成 7 岁孩子能听懂的,语速正常,兴奋情绪 - academic:正式用语,保留术语和敬语,语速 0.95 倍,平静情绪 - casual:口语化俚语、缩略、友好,语速 1.1 倍 - storyteller:生动戏剧化叙述,语速 0.9 倍,热情情绪 - news:简洁、陈述式、播报风格,语速正常,中性情绪
显示更多
3.3 亿美元,这是在 Stripe 上收入最高的 AI 公司年化收入,但是你可能没有听说过 我研究了 Stripe 上收入最高的 10 家公司,希望对你有用: 1️⃣ ElevenLabs:AI 音频:做 AI 语音合成和克隆的,海外对这块儿的需求是实打实的(只有这一家之前没有听说过) 2️⃣ Midjourney:生成图的,没想到还有人用它,只不过环比跌了 -10%,他的衰落跟他本身没有关系,在于各个大模型公司的模型迭代(必死无疑的公司) 3️⃣ Runway:生成视频的,我以为没人用它了,因为都在用 seedance,但是从数据来看,年化收入高达 9000w 美元,环比增长 36% 挺恐怖的,需要研究一下 4️⃣ Bolt new:这是 AI Web 应用构建器,属于风口上的企业了,这个会越来越好的,底层使用大模型,上层提供增值服务 5️⃣ suno:AI 生成音乐,这不会没有人知道吧?太牛逼了,环比增长 34%,太牛了
显示更多
Introducing ElevenLabs Devs, a new YouTube channel for AI engineers. Expect deep dives, demos, and clear explanations of key concepts across Text to Speech, Speech to Text, ElevenAgents, and broader AI systems. Subscribe:
显示更多
0
5
331
38
转发到社区
这家伙实现了一个无人出镜 YouTube 频道的自动化运营,上个月赚了 11,833 美元。他不是根据兴趣,而是根据 RPM(每千次展示收益)来选择领域。整套工具链成本仅为 25 美元: > Claude - 脚本 + 元数据(20 美元/月) > ElevenLabs - 配音(5 美元/月入门版) > CapCut - 剪辑(免费) > Canva - 封面图(免费) > Pexels - 素材库(免费) 每月 39.7 万次播放,每周仅需 3 小时维护。一个 Claude 提示词就能完成 90% 的工作: > 全英文口语化脚本 > 脚本内嵌视觉场景标签 > 视频时长、标题变体、封面构思 唯一需要手动操作的步骤是决定下一期做哪个视频,这才是频道成败的关键所在。
显示更多
0
22
465
120
转发到社区
别再只把 AI 当聊天机器人了,那太浪费。 这 11 个工具才是 2026 年真正的生产力核心: 🧠 解决硬核问题:Claude 🔍 深度研究:Perplexity 🎬 视频全案:Klingai + Capcut 🏗️ 3D 建模:Tripo AI 🎵 音乐/声音:Suno + ElevenLabs ✍️ 满分写作:Gemini 🎨 视觉设计:Canva 📺 视频课代表:Youlearn 🎙️ 播客神器:Descript 收藏这篇,别等急用的时候找不到。 你最近在用哪一个?👇
显示更多
大家可以去 ElevenLabs 的官方 Demo 页面试一下同款模型,重点测试一下在嘈杂背景音下,它对长指令解析的稳定性。