搜索视频生成相关的推文与用户

爱丽丝呀！@BTCqzy1

2026.05.29 08:10

这是我实现的过程，从剧情剧本到分镜到视频生成，全部一站式可以操作

0

转发到社区

奶牛叔@WWTLitee

2026.05.29 03:37

这个一键视频生成工具 HyperFrames 有点火爆！要注意的是，这不是传统意义上的视频生成，而是以HTML为入口的可以理解为加强PPT版本的视频工具特别适合内容创作者介绍项目，产品演示，梳理内容之类的使用 HyperFrames 的思路很直接：Write HTML，Render video。画面、排版、字幕、动态元素都可以先用 HTML 表达，再交给渲染流程生成视频，agent 更容易按要求改。 GitHub 现在约 21.8k stars。做自动化视频、产品演示、教程短片的人，可以先试试把脚本和画面要求交给它。仓库地址：

显示更多

0

4

8

1

转发到社区

心灵书舫 | SoulSloop@SoulSloop99

2026.05.27 16:42

30 个感觉「非法」却合法的 AI 网站 1. — 免费无限 AI 生图，质量直逼 Midjourney 2. — 实时 AI 生图，边画边出图 3. — AI 无限放大图片，细节自动补全 4. — AI 一键去背景/补光/擦除 5. — AI 语音克隆，5 秒模仿任何声音 6. — 输入歌词自动生成完整歌曲 7. — AI 视频生成先驱，Gen-3 免费试 8. — 快手可灵 AI，中文视频生成最丝滑 9. — 一张照片+一段语音=说话的数字人 10. — 静态照片变说话视频 11. — AI 写代码，免费额度够日常用 12. — 说话就能建网站，零代码 13. — Vercel AI 前端生成器，描述即页面 14. — 浏览器里写代码+AI 辅助+一键部署 15. — 粘贴文字自动生成信息图 16. — AI 一键生成 PPT，告别 PPT 地狱 17. — Notion AI 免费写+总结+翻译 18. — 画草图 AI 自动生成真实网页 19. — AI 搜索引擎，问任何问题秒给答案+来源 20. — 开发者专属 AI 搜索，代码问题一搜即解 21. — 会议实时转文字，免费每月 300 分钟 22. — AI 剪辑短视频，自动找高光片段 23. — 一个网站用 GPT-4 o/Claude/Gemini 全免费 24. — 开源 AI 模型免费试玩场 25. — 一键 AI 去背景，1 秒出图 26. — AI 擦除照片中任何物体 27. — AI 换脸，1 分钟出片 28. — AI 音乐标签+推荐 29. — AI 写作助手，免费版够日常 30. — Anthropic 免费 AI 助手，长文处理天花板全部合法。全部免费。在它消失前收藏这个。

显示更多

0

42

4.4K

556

转发到社区

阿泽 AZe@Chenzeze777

2026.05.26 14:47

30 个感觉「非法」却合法的 AI 网站 1. — 免费无限 AI 生图，质量直逼 Midjourney 2. — 实时 AI 生图，边画边出图 3. — AI 无限放大图片，细节自动补全 4. — AI 一键去背景/补光/擦除 5. — AI 语音克隆，5 秒模仿任何声音 6. — 输入歌词自动生成完整歌曲 7. — AI 视频生成先驱，Gen-3 免费试 8. — 快手可灵 AI，中文视频生成最丝滑 9. — 一张照片+一段语音=说话的数字人 10. — 静态照片变说话视频 11. — AI 写代码，免费额度够日常用 12. — 说话就能建网站，零代码 13. — Vercel AI 前端生成器，描述即页面 14. — 浏览器里写代码+AI 辅助+一键部署 15. — 粘贴文字自动生成信息图 16. — AI 一键生成 PPT，告别 PPT 地狱 17. — Notion AI 免费写+总结+翻译 18. — 画草图 AI 自动生成真实网页 19. — AI 搜索引擎，问任何问题秒给答案+来源 20. — 开发者专属 AI 搜索，代码问题一搜即解 21. — 会议实时转文字，免费每月 300 分钟 22. — AI 剪辑短视频，自动找高光片段 23. — 一个网站用 GPT-4 o/Claude/Gemini 全免费 24. — 开源 AI 模型免费试玩场 25. — 一键 AI 去背景，1 秒出图 26. — AI 擦除照片中任何物体 27. — AI 换脸，1 分钟出片 28. — AI 音乐标签+推荐 29. — AI 写作助手，免费版够日常 30. — Anthropic 免费 AI 助手，长文处理天花板全部合法。全部免费。在它消失前收藏这个。

显示更多

0

54

5.6K

1.1K

转发到社区

Jealousy 尼卡@eastweb3eth

2026.05.25 07:58

收藏这5个工具，人人都能靠制作AI短剧赚钱 AI短剧最近流量特别好，大家对这种视频的接受度开始变高。AI短剧的创作者收入也开始水涨船高，那么如何开始短剧创作呢，有了下面5个工具，人人都能用AI短剧赚钱，而且不需要任何门槛： 1. 19.6K Star Pixelle-Video 应该是github最高星级的AI 视频引擎，主打的是全自动化：只需输入一个主题，Pixelle-Video 就能自动完成撰写视频文案，生成 AI 配图/视频，合成语音解说，添加背景音乐。零门槛，零剪辑经验都可以用。 2. 12.4K Star waoowaoo 首家工业级全流程 AI 影视生产工具。waoowaoo 支持从小说文本自动生成分镜、角色、场景，并制作成完整视频。 3. 12.4K Star 火宝短剧是一个基于 AI 的短剧自动化生产平台，实现从剧本生成、角色设计、分镜制作到视频合成的全流程自动化。 4. 8.5K Star Toonflow 是开源一站式 AI 短剧创作工具，将小说、剧本快速转化为动画短剧。集成 AI 编剧、智能分镜、角色与视频生成，跨平台桌面端轻量部署，助力创作者低成本批量产出视觉内容。 5. 1.3K Star BigBanana AI Director 是一个 AI 一站式短剧/漫剧平台，面向创作者,实现从灵感到成片的高效生产。有了上面5个工具，你也可以零门槛生产自己的短剧了。我是尼卡，平时会持续分享 AI、美股、Web3 相关有用又有趣的工具和项目，感兴趣的话欢迎关注，下次见～

显示更多

0

75

103

21

转发到社区

AI Will@FinanceYF5

2026.05.21 03:59

圆满结束了！ Google I/O 2026 第一天的活动已落下帷幕，精彩绝伦。 10 个你必须知道的震撼发布： 1. Nano Banana 视频生成功能，由 Gemini Omni 驱动

显示更多

0

1

0

转发到社区

indigo@indigox

2026.05.19 21:47

一图看清 Google I/O 2026 今天的发布！虽然很多内容前几天都 Android Show 预告了，但这次能更系统的看到 Gemini 与 Search、Workspace 还有 XR 硬件生态的融合，以及全模态 Omni 的最新进展，这次主题：从 AI 工具，走向 AI 代理✨ Gemini 模型与代理 - Gemini 3.5 Flash：新快速旗舰模型，已推出（快 4 倍，推理/编码强于 3.1 Pro），作为 Search AI Mode 等默认后端。Gemini 3.5 Pro 预计下月发布； - Gemini Omni：全新多模态模型（视频优先），支持“从任何输入创建任何输出”。可从文本/图片/视频生成或编辑视频，添加特效、角色、改变风格/场景、生成多角度（多代理并行）。已在 Gemini App、Flow 等产品上线。这被 Demis 视为向“创造任何事物”愿景迈进的重要一步！ - Gemini Spark：个人 Agent AI，能在后台主动做事（如规划 Instacart 订单、跨应用自动化）。一个可以在云端 7x24 小时运行的 Agent Harness👀 - Daily Brief（个性化早报）、Gemini for Science（科研辅助：论文追踪、药物发现模拟、天气等）。 Search 大升级 - 全新智能搜索框：更对话式、可扩展，支持创建/管理多个 AI 代理； - Information Agents：后台 24/7 监控网络任务（如股票、房源、球鞋发售），变化时主动通知； - 在搜索结果中集成生成式 UI、小程序/仪表盘等更便捷的用户体验； Workspace 与生产力工具 - Docs Live / Gmail Live / Google Keep：语音自然指令创建/编辑文档、整理收件箱、清理笔记（拉取 Gmail/Drive 等数据）； - Google Pics：全新 AI 图像/设计工具（夏季推出）； - Universal Cart：跨 Search、Gemini、YouTube、Gmail 的代理式购物车，跟踪优惠、价格历史、库存等（夏季推出）。硬件与 Android XR - 智能眼镜（Audio Glasses）：今年秋季推出（与 Samsung 合作，Warby Parker、Gentle Monster 等设计款）。内置摄像头/扬声器，支持 Gemini 私人语音辅助、实时自动化（如通过手机 App 点咖啡、播放音乐），支持 Android 和 iOS； - Project Aura 等更高级 AR 眼镜原型； - Android Halo：管理 AI Agent 的专用界面，将会集成到 Android 系统里！你早晚不需要亲自来使用手机 App，直接问 Gemini 或者通过眼睛这样的穿戴这边就行，估计下个月 WWDC Apple 的 Siri 就是往这个方向改进的🤔

显示更多

0

15

73

20

转发到社区

karminski-牙医@karminski3

2026.05.18 23:00

究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance# #全模态模型#

显示更多

0

11

181

18

转发到社区

阑夕@foxshuo

2026.05.17 06:07

阿里前几天刚发季报，破天荒的第一次披露了模型与应用服务——其实就是MaaS——的经常性年化收入：截至今年3月超过80亿人民币，预计6月达到100亿，年底突破300亿。相当于半年3.75x的增长速度，大概也是基于如此乐观的势头，阿里才会难得的公布这个数字，向资本市场构建叙事。所以你以为我要开始吹阿里了？错了。阿里的AI收入，建立在阿里云这个中国最大的云计算平台上，阿里云拥有现成的客户群体、销售网络和算力资源，用配套升级的方式去叠一层AI服务收入，是很容易的。所以真正要吹的，不是阿里的AI业绩凭什么增长这么快，而是如果连主要靠存量用户增加预算就能做到半年3.75x的增速，那么原生AI公司今年在同样的市场环境下，增速会飙到什么地步？要知道，原生AI公司赚的每一块钱都是从零开始、靠着模型能力兑现而来的，除了更加纯粹的增长之外，因为不必承担其他业务的成本转移，ROI的负担也更小。比如摩根士丹利测算发现MiniMax平均每分钟进账1美金，同时成本低于0.3美金，而行业平均收入只有约0.5美元/分钟，相当于MiniMax仅凭利润就跑赢了大盘。这就是Pure-play的价值，算清楚这笔账，对于理解走向拐点时刻的AI行业，非常重要。在研报里，摩根大通认为中国在2026年的企业端需求，很大概率会复制美国2025年至今的来路，也就是从试点到规模化投入再到AI成为固定支出的三级跳。简而言之，就是Anthropic的那条离谱曲线。 Anthropic创造了AI行业还是商业史上的创收奇迹，300亿美金的经常性年化收入，让它成为了全球瞩目的新王，甚至让OpenAI的股份交易在一级市场失去了吸引力。毫无疑问，Coding是一个回报路径极其明确的赛道，根据The Information的报道，在企业级市场，Anthropic展现了空前强势的定价权，从它用按量计费替换订阅套餐，到上线导致Token费用上涨的分词器，都让企业找不到商量余地，只能拿着超标的账单去找老板加大预算。没办法，品质和稀缺绑在一起，就是硬通货。摩根大通也是这么判断的，在AI行业，拥有强大模型的公司某种程度上可以豁免于成本战争，而且它想进入「下沉市场」的难度，要远低于低价模型打入「高端市场」。但Coding是一个已经实现预期的赛道，下一个大的是什么？目前来看，几天之后的Google I/O大会非常重要，从已经被剧透的Gemini Omni来看，「All In One」的全栈模型要给多模态打翻身仗了。那个教授在黑板上写公式讲课的片段，之所以艳惊四座，是因为它并非简单的视频生成，这个新的Gemini Omni模型同时搞对了三件事：手持粉笔的空间关系、板书撰写的画面关系、推导过程的逻辑关系。更直白的说，这绝对不是三个模型合在一起的结果，而是基座模型已经就在全模态信息上完成了训练，也就是，世界模型的雏形。像是杨立昆、李飞飞这些不属于Transform派别的行业大佬，都对语言模型颇有微词，认为这条路线跑不出真正的世界模型，所以都选择了另辟蹊径，但Google、OpenAI甚至字节跳动都在证明，即使语言模型确实有局限之处，只要坚持Scaling Laws、在同一个基座模型上训练全模态能力，同样能够渐进式的通向世界模型。如果只看Coding的叙事，中国的原生AI公司都在扮演「一个更便宜的Anthropic」，杀成一片红海。但在找出「一个更本土的Google」这件事情上，就会发现阿里、字节和MiniMax都在这么干，只有它们的模型迭代方向与Google完全一致：在一个系统内完成文本理解、图片生成、视频生成和音频输出。王慧文在即刻上说，一家新兴公司的估值，是由相信它的资本定价的，不是不相信它的人定价的，「好吧，这是句废话。」多模态的生成是语言模型理解世界的硬验证信号，且大部分底层能力与核心模型复用，多个模态并不等同于多份研发投入，有限的成本提升，能够极具经济性的帮助AI构建世界，并让每一代模型的更新不断放大效率差，并打开更高的智能上限。我想吹的和期待看到的，其实就是这个。

显示更多

0

8

115

18

转发到社区

Gorden Sun@Gorden_Sun

2026.05.16 15:29

Warp-as-History：仅用一条视频就能实现交互式视频生成用单条带标注的视频做轻量LoRA微调后，即可让通用视频模型实现跟随视角生成视频。项目里用的这条视频是来自DAVIS数据集里的car-roundabout.mp4。原理是：把相机轨迹产生的变形(warp)伪装成视频模型原生的"历史帧"输入，无需额外的相机编码器或控制分支，就能让预训练视频生成模型跟随指定视角运动。 Github：

显示更多

0

4

11

3

转发到社区

与「视频生成」相关的搜索结果