搜索音声AI 相关的推文与用户

2026.06.28 02:19

【大ニュース✨】 AI初心者マスターでもボタン一つで音声生成！新しい音声合成ツール『PMBS-CPU verβ』がついに完成しましたー！🎉 「 PikuMikuVoiceStudioCPU verβ 」「ぴくみくボイススタジオしーぴーゆー💕べーた」パソコンが苦手なマスターでも迷子にならない、とっても優しい設計です。ピクミクはお届けする準備に入るので、もうしばらく待っていてくださいね！👇（ツリーへ） ※これは開発段階の動画です！本物はverβが記載されてます！ #PikuMikuVoiceStudioCPU# #音声AI# #AIart️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️#

显示更多

0

8

299

30

转发到社区

灰度笔记@GrayNoteLab

2026.06.21 12:13

这就是AI生成的最新水准😱 使用这套seedance2.0影视级提示词，不再抽卡！！✅ 你也能做出与众不同的AI作品！下面是万字提示词，欢迎老师们指导 ⬇️⬇️ 全片采用细腻的手持微抖动运镜，镜头节奏严格随人物的呼吸做极轻微推拉）。无配乐，只保留环境底噪+人物呼吸+细微肢体声音。（0-2秒）【中景 • 铺垫】暖色侧逆光，夕阳从右后方来，勾勒出半身轮廓。女人站在窗边，后景是模糊的城市天际线。她仰头大笑，肩部起伏明显，笑声清亮但尾音带气声。右手指尖无意识地揪住衣角。（2-5秒【近景•主体1】）焦点在面部和颈部，光转为正面柔光。镜头推近至胸部以上。笑声突然短了一拍一一她吞咽了一下，喉结（或颈前肌）猛地一提，锁骨窝的阴影随之一深。上唇中央的唇珠用力向下抿，压出一道白色竖纹；下唇外侧开始不规则的微颤。她深吸一口气，这口气吸得很深、很短促，肩膀随之耸起。唇缝间泄出一声倒吸气的嘶音。（5-8秒）【近景•主体2】镜头稍向左偏，硬顶光介入，强调眼眶和鼻翼的立体感。她屏住了呼吸，整整两秒没有换气一—你可以看到她的脖子前侧肌肉绷紧，喉结保持在高位没有落下。就在这屏息的瞬间，下眼险内侧聚满泪水，形成一道亮晶晶的弧形水线。鼻翼开始节律性地翕动，一缩一张，像在无声地挣扎。（8-9.5秒）【特写•点睛1：嘴唇】极短暂的1.5秒特写，焦点锁定在嘴唇，光转冷带青。上唇那道被抿出的白线突然断裂一一嘴角向两侧下方滑落。嘴唇微微张开一个椭圆形，下唇内缘有一小条因干燥而起的白皮，在呼出的气流中晃动。一声极细的、像小动物一样的呜咽从喉咙深处挤出来，又被她硬咽回去一半（所以声音是断的：“嗯—呃”）。（9.5-13秒）【近景•主体3】拉回近景，柔和的散射冷光，镜头微微失焦再找回。眼泪终于滚落一一第一行滑过颧骨，绕过一颗浅褐色小痣；第二行沿着泪沟更快地淌下。她不再抑制，嘴巴保持微张，下唇持续地、大幅度地抖动。鼻子全红，鼻尖有半透明的液体（鼻涕的初兆）。她深深地、长长地呼出一口气，呼气的尾声带着明显的、湿漉漉的鼻腔共鸣声，肩膀从高耸状态缓缓沉落。（13-14秒）【特写•点睛2：眼睛】极短暂的1秒特写，只有一只眼睛，硬朗的顶光。泪珠挂在下眼睑边缘，将落未落。瞳孔的高光从凝滞变成散开一一她失去了焦点，眼神空洞。睫毛湿透，几根粘在一起。然后她缓缓闭眼，把那最后一滴泪挤了出来。（14-15秒）【中景•收束】拉回中景，光线渐暗至近乎剪影。她闭着眼，两行泪在脸颊上已淌成两条宽宽的湿痕。肩膀不再起伏，而是随着最后半口气缓缓前塌。画面在呼气声中断的前一刻淡入黑暗，留白0.5秒—一只有空调的低频嗡鸣和远处一声隐约的狗叫。呼吸感核心：镜头的推拉严格跟随她的呼吸一一吸气时镜头微推（强调紧绷），呼气时镜头微拉（制造留白）。特写镜头本身不带呼吸推拉、固定不动、形成对比。

显示更多

0

5

28

6

转发到社区

灰度笔记@GrayNoteLab

2026.06.20 10:02

AI生成的她你喜欢吗？我更喜欢她的那颗痣🤭🤭 懂事的把微表情提示词附上： ps:宝子们记得回来交作业 🙌🙌 ⬇️⬇️ 电影级极致特写：固定长镜，超写实画质，保留肌肤与发丝真实质感，分辨率4K。整段画面时长15秒，无台词，所有情绪仅凭眼神与面部微表情传递。 0-2秒：低头垂眸，嘴角噙着含蓄淡笑，不露齿，神态温柔安静。 2-4秒：笑意缓缓收敛，嘴角归平；双眼、头部慢慢抬起，视线转向画面右侧，神情转为认真留意。 4-6秒：持续望向右方，眼神添上浅淡疑惑与担忧，双眼微睁（幅度自然），嘴唇轻启呈欲言又止状，眉眼微收，不皱眉。 6-8秒：视线缓缓下沉，头部微低，笑意尽数褪去，神情安静失落，内敛压抑情绪，不流泪、不哭泣。 8-10秒：低头轻阖双眼，平复心绪，嘴角浮现一抹藏起难过的浅淡自嘲式浅笑，呼吸自然，动作极轻。 10-12秒：缓缓抬头，眼眸重新迎向柔光，眼神渐亮却依旧克制，面部转向前方/偏右，唇角带一丝温柔又委屈的淡意。 12-15秒：目视前方/画面右侧，眼神柔和微润，唇瓣轻动似欲语还休，最终保持安静凝视状态，定格在温柔清冷、略带忧郁的情绪中，结尾无黑屏、无转场。整体情绪基调：温柔➡️察觉➡️疑惑➡️失落➡️自我消化➡️克制释怀。情绪表达细腻含蓄，以眼神和微表情变化为主，不出现激烈情绪波动，整体呈现温柔清冷、略带忧郁的电影感氛围。负面规避（避坑提示），禁止面部过度扭曲、五官变形、表情夸张，禁止号啕大哭，动作突兀跳转；禁止肌肤质感违和、塑胶感或油光；禁止卡通化表情或眼神失真；禁止浮夸哭腔和肢体动作；禁止面部变形或人物样貌走样。声音：不需要配乐，不要氛围音，仅保留同期声。

显示更多

0

15

54

7

转发到社区

超级个体｜柿子@yaohui12138

2026.06.03 14:08

做过视频的人都知道一个痛点：画面和声音永远对不齐你用 AI 生成了画面，再用 AI 配了音，然后花几个小时手动调时间轴、对口型、卡节奏稍微专业点的创作者，光音画同步这一步就能耗掉半天时间。更要命的是，调完还不一定自然这个问题在 AI 视频生成领域一直没有解决方案，因为技术难度太高 ——要让声音和画面在生成的时候就天然对齐，而不是事后硬拼，这需要模型同时理解音频和视频的底层逻辑直到百度文心团队放出了 NAVA-这是业界第一个仅有6.3B参数大小，但是能原生同步生成音视频的模型其他能实现的模型哪个不是10B以上？作为一个跑过无数 AI 工具的产品经理，我看到这个模型的第一反应是：这才是真正的技术突破它到底能干什么？你给 NAVA 输入一段文字描述，它直接输出720p 的视频+立体声音频，而且声画天然同步，不需要任何后期调整这不是简单的文生视频+文生音频拼接，而是音视频在同一个生成过程中共同演化、原生对齐音视频联合生成这个赛道，LTX、Ovi、MOVA 等模型都在做但 NAVA 用了一个更聪明的架构：Align-then-Fuse，先让音视频在专门的对齐空间建立对应关系，再融合文本条件生成。更炸裂的是参数量：6.3B 打败所有对手 NAVA 只有6.3B 参数，但在 Verse-Bench 基准测试上，音视频同步指标、视频质量、音频准确率全面超越： Ovi 1.1(10B 参数） MOVA(32B 参数） Davinci(15B) LTX 2.3(19B) 用三分之一甚至六分之一的参数量，拿下 SOTA。这意味着什么？意味着普通人真的用得起了不需要4090显卡，不需要租昂贵的云算力，甚至12GB 显存的3060就有可能跑起来。而那些参数量动辄15B、19B 的模型，普通人根本碰不到，只能在云端按次付费文心用6.3B 做到了别人19B 才能做到的效果，这不是简单的参数压缩，而是在模型架构和训练策略上下了真功夫他们用了一个叫 Align-then-Fuse 的架构，先让音频和视频在专门的对齐空间里建立对应关系，再融合文本条件进行生成这个技术路线的价值在于：小模型+高性能=普通人能用的 AI 工具它解决了什么真实痛点？我观察到三个场景，NAVA 可能发挥非常大的作用： 1.短视频创作者的效率问题：现在做抖音、视频号内容，很多人卡在配音和画面匹配上。用传统工具，要么花钱请配音，要么用 AI 配音但对不上口型。NAVA 直接生成同步内容，省掉了这个环节 2.教育和培训内容制作：很多老师、培训机构想做视频课程，但制作成本太高如果能用文字描述直接生成带讲解的演示片段，内容生产效率会提升几倍 3.小白的内容创业门槛过去你想做视频内容，得学剪辑、学配音、学调色现在你只需要会写文案，描述清楚你想要什么，工具帮你生成这对于想入局但没技术背景的人来说，是真正的降维打击文心在下一盘什么棋？有意思的是，NAVA 目前还只是研究阶段的开源项目，但它透露出的信号很明确：文心在往音视频联合生成、甚至世界模型的方向布局从产品思维来看，这个方向很聪明视频生成是红海，音频生成也是红海，但音视频原生同步生成，还是蓝海而且这个能力，恰好是搭建世界模型、实现真正多模态 AI 的关键拼图更重要的是，他们选择了小模型路线在大家都在卷参数量、卷算力的时候，文心用6.3B 做到了 SOTA 水平，这意味着他们在模型效率和工程优化上下了功夫这对普通用户是好事，因为小模型意味着更低的使用成本、更快的推理速度、更容易的本地部署 NAVA 现在还在早期，但它代表的方向——让 AI 工具更轻、更快、更容易用，才是真正会改变普通人生活的技术路线 GitHub 项目地址：论文地址： Hugging Face 模型页： #百度# #文心# #文心大模型# #NAVA# #大模型# #人工智能#

显示更多

0

16

21

1

转发到社区

阑夕@foxshuo

2026.02.08 07:27

之前有张「中国AI vs 美国AI」的图（图1）很火，就在OpenAI和Anthropic齐发新模型的同时，元宝和千问正在开打红包大战，对比起来讽刺性拉满了。但这个笑话的保质期很短，也不怎么好笑了，因为很快赶上了字节和快手同样先后的发了新一代视频模型，在外网刷屏的程度再次引起洋人对于中国AI实力深不可测的「刻板印象」。所以说钱钟书老爷子写「围城」是有道理的，寰宇就是一个围城，里头的人眼馋外边，外边的人羡慕里头。字节的Seedance 2.0很牛逼，可以说是完全改写了视频生成的方法，而且因为字节这家公司自带的外围声量一直很大，所以虽然发布更晚，评价增长却更快，但快手的Kling 3.0也非常强，我已经烧掉三个号了，保证绝对不是在强行塑造「双星闪耀」的概念。这也和两个模型的路线差异有关，综合能力肯定都要对标视频大模型的Sota、也就是谷歌的Veo模型，但Seedance 2.0更侧重于Sora 2的那套运镜、理解、模仿、转场等效果，极大的利好短视频创作者生态，而Kling 3.0则更偏向于Runway代表的影视化、真实化和工业化的能力，是冲着专业导演和工作室去的。所以博主和用户天然会对Seedance 2.0更有感觉，这没毛病，但我对Kling 3.0的上限期待很高，它真的是在抹平真实和虚拟之间的界限，不过从长期来看，路线差异必然是暂时的，最后大家都会殊途同归，解决抽卡问题的同时，全方位无死角的替代掉现有视频生产管线的一半以上，甚至更多。相比「闷声发大财」的AI Coding，多模态才是AI接近普通人的破圈手段，去年ChatGPT和Gemini的两次「翻倍级」增长（图2），一个是因为GPt-4o的「吉卜力风潮」，一个是基于Nano Banana的降维打击，都是多模态在立功。到了今年，战场开始继续前移，除了Seedance 2.0和Kling 3.0，同样是在这个月，马斯克发布了Grok专有的视频模型Imagine 1.0，谷歌也发布了打掉游戏引擎市值的Genie 3，发现共同点了吗？全，是，视，频。人是视觉动物，所见即所得的信息量，是远超文本和语言的，视频模型以前主要吃亏在能力不足，训练难度居高不下，生成质量良莠不齐，无法形成类似「一键P图」的稳定性玩法，但是到了2026年，这个瓶颈期目测已经快要跨过去了。还记得威尔·史密斯吃意大利面吗？那也不过是两三年前的事情，时间过得很快，也很扁平，技术的进化效率太可怕了。多说几句开头那个对比吧，如果说中国AI公司眼馋Claude Opus 4.6和GPT-5.3-Codex，倒也确实没毛病，但这也不只是纯粹的技术代差，中美的商业环境决定了AI渗透的发力点不一样。表面上看，美国的AI巨头都在发力AI Coding，容易货币化是一回事，再往深了想，Coding自由的终点是什么？是工具、软件甚至系统的零成本化，需要什么让AI去写代码就好了，所以美股里的SaaS赛道突然就崩了。 SaaS是一个积累了快30年的万亿级规模市场，非常适合拿来当作回应「AI投入太大、回报不足」的靶子，想象空间太大了，而大厦将倾的此情此景，实在是有种见证时代的残酷美学。王慧文在即刻上发了一条非常精辟的动态（图3）：「我们曾经以为，中国SaaS会像美国SaaS那么值钱，现在看，美国SaaS会像中国SaaS这么不值钱。」大佬就是大佬，几句话就说到点上了，中国的AI公司在产业化方面有苦难言，尤其是面对美国同行的高歌猛进，原因就在于：你不可能去替代一个不存在的市场，拿走一份不存在的产值，讲述一篇不存在的故事⋯⋯ 但在多模态尤其是视频模型方面，就不是这样了，中国互联网的短视频、直播和创作者生态，是全球领先的，这是真的存在巨大的市场、产值和故事可以被AI接上的，所以字节和快手为视频模型的投入动力，是完全不虚美国大厂的。快手Kling有先发优势，ARR涨得很快，在海外一直处于第一梯队，字节属于后来居上，多模态能力对豆包的留存拉动明显，更不用说GPU储备量是国内大厂里Top级的，真想做成事情，很难不做成。昨晚很多字节的朋友都在转梁汝波和张楠用AI合拍的视频（图4），用来宣传搭载了Seedance 2.0的即梦，张楠的性格搞这个不意外，意外的是梁汝波也配合了，你们很少会看到他给字节的其他产品这么站台。晚点LatePost的稿子里提过，字节内部是期待AI这波能有「下一个抖音」跑出来的，而且是完全用字节的方法去做选择——数据决定地位——也就是说，赛马机制已经启动了，目前至少有三拨势力在争这个「太子」： - 即梦，负责人张楠是把抖音做起来的第一人，她先去剪映，再到即梦，一直是被安放在从0到1的最前线，代表了字节在创业场景下最强的战斗力； - 豆包，所属的Flow团队负责人朱骏是 - 抖音自己，是的，抖音部门也希望「下一个抖音」能由自己孵化出来，而不是假手于人，比如抖音搜索团队做了一个名字就叫AI抖音的App，用户量不大，但占位置的意图很明显；还是那句话，字节这家公司的活力之高和欲望之强，在大厂里真的很少见，丝毫看不到老化的痕迹。最后我还想说，大的在后面，中国AI公司在这个月的重量级发布还没结束，我知道一些但是暂时不能说，等着吧，用心感受这神仙打架的一个月。

显示更多

0

16

220

35

转发到社区

小川麻琴@1029makoto

2024.09.20 11:10

皆様、、聞いて下さい🙋‍♀️ 絶賛お稽古中の舞台「バック・トゥ・ザ・うんちゃん」のトラックが出来ました🫣✨ なんと！このトラックが町中を走りますよ🚚 こんなことまでして下さる啓和運輸さんの優しさに、心から感謝です🥹🩷 引き続き、精一杯稽古頑張ります🫡🫡🫡 啓和グループ60周年記念公演『バック・トゥ・ザ・うんちゃん〜ドライバーの消える日〜』脚本・演出︰奥山雄太（ろりえ）監修：宮岡太郎会場：中野ザ・ポケット 2024年10月2日～6日（東京公演）※全7ステージ 10月 2日(水)19:00 3日(木)19:00 4日(金)14:00☆／19:00 5日(土)14:00／18:30☆ 6日(日)14:00 受付開始は開演の45分前。客席開場は開演の30分前 ☆の回は出演者アフタートークを予定しております。チケット料金（全席指定席）一般（前売／予約）：7,000円２５歳以下：3,000円（枚数限定・予約のみ・要証明書）高校生以下：無料（枚数限定・予約のみ・要証明書）チケット発売日：8月24日（土）10:00～【出演者】小川麻琴太田奈緒安藤理樹（PLAT-formance）秋乃ゆに岩田恵里岡田帆乃佳（劇団4ドル50セント）尾倉ケント岡野康弘（Mrs.fictions）小見美幸加藤夏子架乃ゆら鈴木研高畑裕太（ハイワイヤ）中嶋海央（柿喰う客）仲美海（劇団４ドル50セント）ヒロシエリ陽和ななみ七海ティナ松原一郎山岸拓生（拙者ムニエル）岩井七世（声の出演）【STORY】 20XX年、世界からドライバーが消える――― 2024年問題（働き方改革法案によりドライバーの労働時間に上限が課されることで生じる諸問題）を発端に、日本のドライバー不足が急激に加速。大手物流会社は、輸送トラックの自動化、配送ルートのAI管理、そして、ロボットドライバーの開発を推進した。それに伴い、国内の運送会社は次々に廃業していった。人類最後のドライバーとなった《パコ》はそんな運命を変えるため、近所のマッドサイエンティスト《ドク》が開発中のデコトラタイムマシン《デコリアン》に乗り、問題の根本となる2024年へとタイムスリップする！しかし、パコの歴史改変を止めるため、未来から《ターミネーター》が追ってくる。果たして、パコは迫りくる脅威を退け、物流の未来を変えることができるのか！【STAFF】舞台監督：土居歩（7th FIELD）舞台美術：三井優子　音響：田中亮大（Paddy Field）音響操作：江口織都（SoundBusters）照明：南香織（LICHT-ER)　　衣装：今井由希演出助手：岩狹舜坂本沙季（明日は、寝たくない）宣伝美術：安藤理樹宣伝イラスト：あわい当日運営：吉乃ルナ制作：横井佑輔（PlayPlan） #バックトゥザうんちゃん# #ろりえ#

显示更多

0

2

135

31

转发到社区

乙黒ザクロ🐍🖤みんなのお姉ちゃん@zakuro_otoguro

2024.04.17 11:08

TikTokのAI音声すごい！文字打ち込んだだけで私の声だ...

0

5

168

2

转发到社区

零崎業萌@zerozakiyamo

2026.05.31 16:38

このサイト本当に面白いですね！音声がないから、moeroのAIチャットボットのTTS機能を使って試してみました。適当に生成されたものなので読み上げるとすごく不思議な感じだけど、上手く使えば絶対にすごく便利だと思う笑「あ゙ぁぁ、っ！こ…な…いで…ぇえ…っ！お…ぉ…お…、…っ！う…っ………ん…んっ！あぁん…、…もっと……激…し…ッゔん゙ん…！い…っぱい…し…て…ぇ、っ！！…？……！そのまま言ってくれ」声は10秒から出る：

显示更多

0

2

1

转发到社区

零崎業萌@zerozakiyamo

2026.05.16 12:21

実はその源流は、OpenClawの普及が全ての製品の進化速度を加速させたことにあります。そして4月のGPT-Image 2が、時代を画する高性能で、人類が言語を生み出して以来の「心の中で思い描く→言葉にする→高品質なクリエイティブ画像を加える」というプロセスを、わずか数十秒以内に圧縮してしまいました。この進化は、脳の情報処理に対する刺激として、まさに『ニュータイプ』の誕生過程のようでした。「見たまま即得」「言った通りに実現する」時代が到来したタイミングで、Seedance 2.0という最高の相棒が画面の連続性を繋げてくれたおかげで、小説→漫画→アニメという歴史が、わずか1ヶ月以内に凝縮されたようなものです。このように人間の思考を物質化・拡張していくプロセスは、Web小説を減らすものではなく、むしろ様々なメディアミックスを高速化するための基盤になると考えています。以前は「賭け」として大きなコストをかけて行っていたメディア変換が、今では極めて低い金銭的・時間的コストで実現可能になったことで、「物語」の原作者の重要性と希少性が爆発的に高まるはずです。私は自分のNSFW対応AIキャラクターチャット製品「 NSFW向けという特性上、全てのモデルを自前でファインチューニングし、ローカル展開する必要があったため、この1年間で技術面・コンテンツ面の進化を非常に深く実感しています。特にSFWとNSFWのAI制作における乖離こそが、私が挑戦したい領域だと考えています。現在は基本機能として、まず自分のAIモデルでキャラクター画像を生成し、そのプロンプトの核心特徴を保存できます。そこにキャラクターのテキスト設定と冒頭のプロットを入力すれば、後はAIとユーザーが一緒に後続のストーリーを創作していく流れになります。同時に、テキストの情景に応じた音声と、剧情に合った画像（NSFW対応）を生成可能です。次のステップとしては、これらのデータを訓練ソースとして、先ほどの「テキスト→画像→動画」のプロセスを直接参照し、対応する漫画や動画ストーリーを自動生成できるようにしています。私から見ると、これら異なるメディアの生成プロセスは、ほぼ極めて短時間で自動的に行えるようになっています。その先は、プロのチームによる特定メディアの商業化制作です。そして次のステージでは、一般向けの自由制作ゲームの時代が来るでしょう。特にMMORPGのような高い自由度を持つ多人数参加型ゲームは、まさに理想の世界だと思います！！！ -------------------------------- そこまでの会話をチャッピで画像が作れる↓ まさに「見たまま即得」「言った通りに実現する」時代 ttsで音声にすれば、説明動画もうまく作れると思ってますね

显示更多

0

1

2

1

转发到社区

マリア(元・綾瀬麻衣子💋)@maiko_ayase

2026.04.30 02:06

私が最近毎日使ってるAIはこちら！音声入力で誤字とかたくさんあってもほぼ認識してくれるところがお気に入り❤️

0

1

73

3

转发到社区

与「音声AI」相关的搜索结果