搜索图片生成相关的推文与用户

2026.05.17 06:07

阿里前几天刚发季报，破天荒的第一次披露了模型与应用服务——其实就是MaaS——的经常性年化收入：截至今年3月超过80亿人民币，预计6月达到100亿，年底突破300亿。相当于半年3.75x的增长速度，大概也是基于如此乐观的势头，阿里才会难得的公布这个数字，向资本市场构建叙事。所以你以为我要开始吹阿里了？错了。阿里的AI收入，建立在阿里云这个中国最大的云计算平台上，阿里云拥有现成的客户群体、销售网络和算力资源，用配套升级的方式去叠一层AI服务收入，是很容易的。所以真正要吹的，不是阿里的AI业绩凭什么增长这么快，而是如果连主要靠存量用户增加预算就能做到半年3.75x的增速，那么原生AI公司今年在同样的市场环境下，增速会飙到什么地步？要知道，原生AI公司赚的每一块钱都是从零开始、靠着模型能力兑现而来的，除了更加纯粹的增长之外，因为不必承担其他业务的成本转移，ROI的负担也更小。比如摩根士丹利测算发现MiniMax平均每分钟进账1美金，同时成本低于0.3美金，而行业平均收入只有约0.5美元/分钟，相当于MiniMax仅凭利润就跑赢了大盘。这就是Pure-play的价值，算清楚这笔账，对于理解走向拐点时刻的AI行业，非常重要。在研报里，摩根大通认为中国在2026年的企业端需求，很大概率会复制美国2025年至今的来路，也就是从试点到规模化投入再到AI成为固定支出的三级跳。简而言之，就是Anthropic的那条离谱曲线。 Anthropic创造了AI行业还是商业史上的创收奇迹，300亿美金的经常性年化收入，让它成为了全球瞩目的新王，甚至让OpenAI的股份交易在一级市场失去了吸引力。毫无疑问，Coding是一个回报路径极其明确的赛道，根据The Information的报道，在企业级市场，Anthropic展现了空前强势的定价权，从它用按量计费替换订阅套餐，到上线导致Token费用上涨的分词器，都让企业找不到商量余地，只能拿着超标的账单去找老板加大预算。没办法，品质和稀缺绑在一起，就是硬通货。摩根大通也是这么判断的，在AI行业，拥有强大模型的公司某种程度上可以豁免于成本战争，而且它想进入「下沉市场」的难度，要远低于低价模型打入「高端市场」。但Coding是一个已经实现预期的赛道，下一个大的是什么？目前来看，几天之后的Google I/O大会非常重要，从已经被剧透的Gemini Omni来看，「All In One」的全栈模型要给多模态打翻身仗了。那个教授在黑板上写公式讲课的片段，之所以艳惊四座，是因为它并非简单的视频生成，这个新的Gemini Omni模型同时搞对了三件事：手持粉笔的空间关系、板书撰写的画面关系、推导过程的逻辑关系。更直白的说，这绝对不是三个模型合在一起的结果，而是基座模型已经就在全模态信息上完成了训练，也就是，世界模型的雏形。像是杨立昆、李飞飞这些不属于Transform派别的行业大佬，都对语言模型颇有微词，认为这条路线跑不出真正的世界模型，所以都选择了另辟蹊径，但Google、OpenAI甚至字节跳动都在证明，即使语言模型确实有局限之处，只要坚持Scaling Laws、在同一个基座模型上训练全模态能力，同样能够渐进式的通向世界模型。如果只看Coding的叙事，中国的原生AI公司都在扮演「一个更便宜的Anthropic」，杀成一片红海。但在找出「一个更本土的Google」这件事情上，就会发现阿里、字节和MiniMax都在这么干，只有它们的模型迭代方向与Google完全一致：在一个系统内完成文本理解、图片生成、视频生成和音频输出。王慧文在即刻上说，一家新兴公司的估值，是由相信它的资本定价的，不是不相信它的人定价的，「好吧，这是句废话。」多模态的生成是语言模型理解世界的硬验证信号，且大部分底层能力与核心模型复用，多个模态并不等同于多份研发投入，有限的成本提升，能够极具经济性的帮助AI构建世界，并让每一代模型的更新不断放大效率差，并打开更高的智能上限。我想吹的和期待看到的，其实就是这个。

显示更多

0

8

115

18

转发到社区

Geek@geekbb

2026.05.11 03:14

好玩，基于浏览器运行的3D细胞模型交互工具，用 React + Three.js 搭建，支持旋转缩放查看、细胞器面板、截图和 GLB 导出，还能从上传图片生成3D模型。

显示更多

0

8

86

8

转发到社区

柴郡🔔｜Crypto+AI Plus@0xCheshire

2026.05.09 13:26

有人刚刚成功提取出了 GPT-Image-2 的底层隐藏水印！你每天生成的 AI 图片，底层早就被打上了数字钢印。左边是 GPT Image 2 的隐形水印，右边是 Gemini 的 SynthID。它们在图片生成的瞬间直接注入像素，肉眼完全不可见，且免疫任何截图、裁剪和高损压缩。 AI 越逼真，鉴伪越凶狠，而绝大多数用户对此一无所知。

显示更多

0

842

5K

639

转发到社区

宝玉@dotey

2026.01.29 15:30

推荐阅读：《万字解析 Manus 的 PMF 和 AI Agent 赛道竞争的稳态约束》作者： “约尔 Yor” 作者问了一个问题：AI应用的数据都在暴涨，但怎么判断用户是真在用，还是只是在尝鲜围观？作者给出的答案是：别看融资额和PR稿，去看Reddit和Discord上的真实吐槽。这些地方的用户样本偏早期adopter，语气不友好甚至充满抱怨，但恰恰因为他们真的拿AI去干活、为结果承担过现实成本，所以信息密度极高。先说结论：Manus找到了自己的位置，而且很清晰。【1】核心发现 Manus 到底解决了什么问题？一句话：那些不做不行、自己做太累、雇人又不划算的商业杂活。报税、填表、爬数据、做PPT、跑固定流程，这些任务的特征是输入输出明确、逻辑不复杂、但执行过程冗长琐碎。 Manus覆盖的正是这片结构性真空。用户付费的四种动机： 1. 花钱换精力（认知代工） 2. 第一次做出原本不会的东西（能力解锁） 3. 比雇人便宜（成本替代） 4. 不想参与繁琐执行（托管） Manus 和 ChatGPT 不是替代关系，而是分工。 ChatGPT 是认知层产品，擅长想清楚；Manus 是执行层产品，负责跑出来。很多用户先在 ChatGPT 打磨 prompt，再交给 Manus 执行，省积分。【2】Manus 比 ChatGPT 强在哪 ChatGPT 是认知层产品，擅长对话、思考、解释。 Manus 是执行层产品，能在真实工作流里干活。具体差异： - Manus 能交付完整调研报告而非只给建议； - 能直接处理 PDF、图片生成表格而非需要大量人工修正； - 能离线持续执行而非需要你盯着； - 能拿到系统权限直接操作服务器和代码仓库。【3】谁在付费？核心用户是 Freelancer、一人公司、小型工作室。他们对外售卖判断力，但缺少助理和运营。Manus 提供的是一种"低配组织形态"，让个体拥有接近小团队的执行能力。 Manus提供的是一种低配组织形态，让个体拥有接近小团队的执行能力。付费逻辑很直接：只要比雇人便宜、比自己做省时间，ROI 算得过账就行。【4】Manus 的软肋？积分焦虑。Agent 的价值来自交付结果，但计费发生在执行过程，成本和结果脱钩。用户愿意为结果付钱，但不敢为过程放手。只要执行路径不确定、按 token 计费，就必然制造成本焦虑，抑制用户把更大任务交出去。用户的积分焦虑本质是“执行不确定性”的定价问题。【5】更大的问题：这一代AI争夺的稀缺资源是什么？移动互联网争的是用户时间，AI争的是人类可被外包的经济效用总量：有多少真实工作、决策和表达，人类愿意授权给AI执行。 Token消耗量就像当年移动互联网时代的人均网络流量消耗，只说明为系统消耗了多少资源，不代表为现实世界创造了多少价值。 AI 产品在争夺三种份额： 1. 任务份额 2. 决策份额 3. 产出份额。【6】终局形态？ Manus 之外的机会在三个方向： 1. 深耕垂直领域的专业 Agent 2. AI 加人类服务的混合交付 3. 嵌入工作过程的 Copilot 终局可能不是一个超级智能体，决定天花板的，是谁能进入更高价值、更高责任、更高决策密度的任务结构。链接：

显示更多

0

6

93

13

转发到社区

宝玉@dotey

2026.01.12 20:53

Claude 的新功能 Cowork：让 AI 真正帮你干活 Claude Code 本来是给程序员写代码用的，结果大家发现它整理文件、做表格、写报告也很顺手。Anthropic 索性把这套能力包装成了 Cowork，让不会写代码的人也能用上。【1】Cowork 到底能干啥你选一个电脑上的文件夹，Claude 就能在里面读文件、改文件、创建新文件。听起来简单，用起来挺香。比如你下载文件夹乱成一锅粥，让它帮你分类重命名。或者你有一堆消费截图，它能整理成一张 Excel 表。再比如你写了几页凌乱的笔记，它能帮你理顺思路、输出初稿。和普通对话不一样的是，Cowork 模式下 Claude 更像个真正的助手。你布置任务，它自己规划步骤、一步步执行，中间会告诉你进度。如果你用过 Claude Code，这感觉会很熟悉，因为底层技术是同一套。【2】还能更强基础功能只是起点。Cowork 可以接上你已有的连接器，比如 Google Drive、Slack。它还内置了一批技能，能更好地生成文档、PPT 之类的文件。再配上 Chrome 浏览器插件，Claude 甚至能帮你操作网页。这套设计让工作流变得很丝滑。你不用反复给 Claude 喂上下文，也不用手动把输出转成正确格式。甚至不用等它做完一件事再布置下一件，可以连续丢任务让它并行处理。用 Anthropic 的话说，这感觉不像你一句我一句地聊天，更像给同事留便签。【3】和 Claude Code 共享技能生态对 Claude Code 用户来说有个好消息：Cowork 能读取你本地的文件和自定义 Skills。我测试了一下，选择工作文件夹后，Cowork 能看到里面的并按指令执行。我在 Claude Code 里配置的写作风格技能，Cowork 里也能直接调用。技能分两类：Anthropic 官方提供的（docx、pptx、pdf 这些）和用户自己创建的，两类都能用。换句话说，你在 Claude Code 里攒下的工作流配置可以直接迁移过来。Cowork 不是另起炉灶，是同一套体系的图形化入口。有个坑要注意：Cowork 跑在 Linux 虚拟机里，而你的 Mac 是 ARM 架构。如果技能依赖 node_modules 或本地特定环境（比如浏览器 cookies、特定架构的二进制文件），就跑不了。我试着调用一个需要运行 nodejs 脚本的图片生成技能，报错了——架构不兼容。纯文本类的配置（【4】安全边界在哪里 Claude 只能访问你明确授权的文件夹和连接器，动作比较大的时候会先问你。但有几件事得提前知道：Claude 可能会误解你的指令，如果你说"清理一下这个文件夹"，它可能真的把文件删了。指令要说清楚。另一个风险是提示词注入，就是攻击者在网页内容里藏一些指令，试图劫持 Claude 的行为。Anthropic 说他们做了防护，但这个领域整个行业都还在摸索。这些风险不是 Cowork 特有的，只是很多人可能是第一次用这种更自主的 AI 工具。官方建议：刚开始用的时候谨慎点，别一上来就让它处理重要文件。【5】现在能用吗 Cowork 目前是研究预览版，只对 Mac 上的 Claude Max 订阅用户开放。Anthropic 想先看看大家怎么用、有什么反馈，然后快速迭代。后面会加跨设备同步，也会出 Windows 版。这一步到是意料之中，因为 Claude Code 现在已经被用在很多编程意外的领域，但是门槛略高，限制了使用群体是程序员或者懂点技术的用户，而且脚本执行权限会有很多安全上的隐患。Cowork 一下子降低了使用的门槛，通过图形化界面就可以操作，并且也让使用更安全。现在还是早期版本，能做的事有限，安全机制也在完善中。但如果你是 Max + Mac 用户，值得一试。

显示更多

0

61

551

89

转发到社区

宝玉@dotey

2025.12.31 00:48

这份年终众包调研来自我在 X 上的随手一问，问了三个问题：2025 年 AI 最关键的技术突破是什么？哪些产品让你眼前一亮？2026 年什么趋势不可忽视？没想到收到了这么多认真的回复。我花了一两个小时时间，把这些留言和答案汇总整理了一下。 127 条留言，95 个人回答了同样的三个问题。看完所有答案，我发现大家虽然各有侧重，但在某些判断上出奇一致。答案五花八门，但有些词频繁出现：推理 (Reasoning)、Agent (智能体)、Claude Code、Manus、Nano Banana Pro、NotebookLM、具身智能 (Embodied AI)。这组词频里有个共同点：“聊天”这个词几乎没人提起了，“干活”这个词开始更多被提起了。【1】推理革命：AI 学会了慢下来如果要选 2025 年最重要的技术突破，答案几乎没有悬念——推理能力的工程化落地。三疯 (@ 3fenglife) 的表述最精准：从“预测下一个词”到“预测下一步行动”。以前的 AI 像个反应快但不过脑子的人，张口就来，经常胡说八道。2025 年的突破在于，AI 学会了在回答之前先想一想——做内部推演、自我检查、发现错误就纠正。技术上这叫 System 2 Thinking，或者叫 test-time scaling。AI 从“快思考”进化到了“慢思考”。o1、o3、DeepSeek R1 这些模型，都是这条路线的产物。 Ray Zhai(@ Cryptoxorz) 还补充了一个视角——当 AI 开始像人类一样拥有“慢思考”的逻辑链，并能理解真实世界的因果律时，AI 才算真正拿到了进入物理世界的入场券。岚叔 (@ LufzzLiz) 和 Xin(@ Xin_Jin1018) 点名了一个关键技术：RLVR，基于可验证奖励的强化学习。以前训练模型需要大量人工标注的数据，告诉模型“这个回答好，那个回答不好”。这很贵，也很慢。而 RLVR 换了个思路：对于数学题和代码这类问题，答案对不对是可以自动验证的。答案对了就给奖励，错了就扣分。不需要人来一条条看。另一个高频共识是成本拐点。Rainman(@ 0xdeusyu) 和 Robinson(@ python_xxt) 都提到了 MoE 稀疏化架构，DeepSeek R1 证明了一件事：前沿 AI 不再需要前沿预算。意味着推理成本在下降，成为可以普及的基础设施。还有一类突破被反复提及：Agent 系统化成熟。SLiangD(@ SLiangD) 说得很到位，关键突破不是参数变大，而是三件套终于配合默契了——工具调用、上下文工程、多步推理。AI 能理解“帮我扫描亚马逊眼罩类目，找出评分低但销量高的产品，总结用户抱怨最多的三个痛点”这种复杂任务链了。【2】年度产品：对话框退场，进度条登台问到 2025 年哪些产品让人眼前一亮，有一个名字被提到了二十多次：Claude Code。 G_Z(@ GZhan57) 的评价很有画面感：“第一个 work 的 general agent，除了不能生孩子啥都可以。”阿绎 YiOS(@ WangYiNotes) 说得更细腻：“不是因为它写代码有多快，而是它第一次让人感觉是在跟队友协作，而不是在调教工具。” Claude Code 代表的是一类新物种：能把复杂工作流跑通的 AI。它不只是补全代码，还可以自己检索文档、改 Bug、跑测试、完成部署。你扔给它一个需求，它真的能把事办完。第二名是 NotebookLM。Rocky(@ Rockybnbtrade) 说它让知识输入效率提升了很多，王是子路 (@ atm13999) 说它把枯燥的文档变成极其自然的播客对话。这个产品的价值不在于生成内容，而在于帮你消化和内化已有的知识。第三名是个意外：Nano Banana Pro，谷歌 Gemini 的生图功能。defyong(@ defyong) 的评价很有意思：“结合 Gemini 的感知与知识库，图片生成不再是凭感觉。第一次让我觉得，这个生图工具，她活起来了。”Steven Qi(@ Jason_qeb) 补充说中文支持是个大突破，文生图、图生视频、图生 PPT 都变得可行了。视频生成虽然没有 Claude Code 和 Nano Banana Pro 那么高频，但也收获了一批提名。Roland(@ Roland_WayneOZ) 和小镇记录家 (@ liangde_li40657) 都提到了 Sora、可灵、即梦等产品的突破，cicada(@ thebestsetup) 直接把 Veo/Sora 列为年度最惊艳。JCat(@ JackyisThinking) 的判断更进一步：视频生成会在 2026 年更加成熟，影视行业尤其是低成本特效和动画行业将全面 AI 化。这条赛道的特点是"看得见摸得着"，普通人也能直观感受到 AI 的进步，所以虽然技术门槛高、商业化慢，但对大众认知的影响可能比编程工具更大。空间智能是另一个被多人点名的方向。JCat(@ JackyisThinking) 说得最清楚：机器人产业要落地，AI 就必须具备更高阶的 3D 空间识别、理解和推理能力，这是绕不过去的坎。Ray Zhai(@ Cryptoxorz) 和 suwakopro(@ suwakopro) 都提到了"世界模型"这个概念——AI 不能只在文字和图片的世界里打转，它得理解真实世界的因果律和物理规则。小洲洲的 AI 日常 (@ LZhou15365) 观察到具身智能已经在快速进化："从走姿、行动都越来越像人类。"当 AI 学会了"慢思考"，下一步就是让它学会"动手做事"，空间智能是连接数字世界和物理世界的那座桥。还有一批产品被多人提及：Cursor 和 Windsurf 这类 AI IDE，Deep Research 深度研究，Manus 和 Youmind 这类通用 Agent，可灵和 Sora 的视频生成。但最让我印象深刻的是三疯 (@ 3fenglife) 的一句总结：让人惊艳的不再是对话框，而是进度条——它在后台默默把事办完了。Ray Zhai(@ Cryptoxorz) 把这种体验叫做“感知消失，效率倍增”，这才是技术真正闭环的瞬间。这才是 2025 年产品形态的本质变化。【3】2026 路线图：从“教 AI 怎么做”到“告诉 AI 我要什么” 关于 2026 年的趋势，答案的集中度比我想象的高。第一个共识是 Agent 大规模落地。超过三分之一的人提到了这个方向。什么是 Agent？简单说，就是 AI 不再只是回答问题，还能自己拆解任务、调用工具、一步步执行，最后交付结果。 Ray Zhai(@ Cryptoxorz) 的描述很有画面感：未来不再是你一个人对着一个 AI，而是你拥有一个 AI 舰队。它们会自动分工、自我纠错、自发存储数据。我们将从“教 AI 怎么做”转向“告诉 AI 我要什么”。 SLiangD(@ SLiangD) 用黄金圈法则做了一个漂亮的框架切分：Why（为什么做）和 What（做什么）仍然是人的领地，AI 无法替代；但 How（怎么做）将彻底交给机器，趋近于零成本瞬间完成。这意味着什么？未来的竞争力不是“会用 AI”，而是“会定义问题”。第二个共识是具身智能。码上盈 (@ InnaLyceyum) 预测 Agent 将不再只存在于浏览器中，而会深度集成到智能硬件——从智能眼镜到桌面机器人，AI 将获得空间感知与物理交互能力。阿绎 YiOS(@ WangYiNotes) 说得更极端：2026 年我们可能不再讨论哪个 AI 产品好用，因为 AI 已经内嵌在 OS 和硬件的每一寸肌理里了。第三个共识是 AI 的“私人化”和“记忆化”。 Cunningham Card(@ Card198454) 强调 Memory 方向的突破会让 Agent 更像人，拥有社会属性。AI 将从千篇一律的工具，演变成极度个性化、具备连续记忆的数字助手。三疯 (@ 3fenglife) 还提出了一个颠覆性预测：SaaS 的消亡，Service 的崛起。你不再订阅“写作软件”，你订阅的是“文案产出服务”；你不再订阅“CRM 系统”，你订阅的是“销售线索清洗服务”。软件会员变成结果订阅，这是商业模式的根本重构。当然也有清醒的声音。 Michael Guo(@ Michaelzsguo) 认为 2025 年 AI 基本没有关键技术突破，都是沿用 2024 年的路线做性能提升。Tony Lee(@ lee810860) 预测 AI 厂商加速倒闭。熊布朗 (@ Stephen4171127) 直接说“没有什么是不可忽视的必然路径”。也不能说这些声音是悲观，更像是提醒我们：共识不等于正确，热情不能代替验证。【4】最后 AI 的演进已经进入新阶段。2024 年大家还在争论哪个模型更聪明，2025 年这个问题变得不那么重要了，重要的是谁能把活干完。从“会说”到“会做”，从“输出文本”到“交付结果”，这是范式级的转变。来自 Roland(@ Roland_WayneOZ) 和 SLiangD(@ SLiangD) 的一句话适合用来作为结尾： 2025 年是 AI 学会干活的元年。2026 年的赢家，不是最会用 AI 的人，而是最会定义问题的人。我把整理后的结果放到 Google Sheet 上了：

显示更多

0

23

247

45

转发到社区

穆尼@MooenyChu

2025.08.29 04:37

太强了，Nano Banana 模型在人物穿搭方面的表现令人惊艳，人物一致性达到了完美境界。对于想看服装上镜效果的女生来说，这简直是终极解决方案，完美复现虚拟试穿，这是我目前体验过的最出色的 AI 图片生成模型。 #NanobananaAI# 人物图片来源：instagram 搭配图片来源：pinterest Prompt：图2女生穿搭图1中的服装和配饰

显示更多

0

2

15

2

转发到社区

穆尼@MooenyChu

2025.03.14 06:11

玩了下Gemini 2.0 Flash Experimental模型直达地址：出来的图片不是很满意，又用平替软件image-fx重新做图，两者结合能出来一致性的故事内容，如果需要变成视频，用即梦里面的图片生成视频+分镜描述就可以。重点是都免费，可以无限制生成，做做还蛮费时间的

显示更多

0

12

49

9

转发到社区

穆尼@MooenyChu

2025.02.21 02:24

如果能把图片生成限制再越狱一下就无敌了，既然生成了文字，配图肯定不能少哈，你们试试看不同类型的配图描述

0

1

24

0

转发到社区

穆尼@MooenyChu

2024.07.09 01:40

简单用图片生成视频来做视频分镜，基本上输入分镜头语言描述就可以出来视频，多生成几个拼接在一起就是一个小短片。可灵【高表现】模式下细节和画质上还是能用用的，可惜每天只能用3次。@Kling_ai 提示词：黑色跑车以300码速度疾驰在街道上，大幅度动作，速度感，电影级画面 #图片生成视频# #可灵AI工具# #KlingCreativeSpace#

显示更多

0

2

13

1

转发到社区

与「图片生成」相关的搜索结果