注册并分享邀请链接,可获得视频播放与邀请奖励。

与「图片生成」相关的搜索结果

图片生成 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 图片生成 的内容
阿里前几天刚发季报,破天荒的第一次披露了模型与应用服务——其实就是MaaS——的经常性年化收入: 截至今年3月超过80亿人民币,预计6月达到100亿,年底突破300亿。 相当于半年3.75x的增长速度,大概也是基于如此乐观的势头,阿里才会难得的公布这个数字,向资本市场构建叙事。 所以你以为我要开始吹阿里了?错了。 阿里的AI收入,建立在阿里云这个中国最大的云计算平台上,阿里云拥有现成的客户群体、销售网络和算力资源,用配套升级的方式去叠一层AI服务收入,是很容易的。 所以真正要吹的,不是阿里的AI业绩凭什么增长这么快,而是如果连主要靠存量用户增加预算就能做到半年3.75x的增速,那么原生AI公司今年在同样的市场环境下,增速会飙到什么地步? 要知道,原生AI公司赚的每一块钱都是从零开始、靠着模型能力兑现而来的,除了更加纯粹的增长之外,因为不必承担其他业务的成本转移,ROI的负担也更小。 比如摩根士丹利测算发现MiniMax平均每分钟进账1美金,同时成本低于0.3美金,而行业平均收入只有约0.5美元/分钟,相当于MiniMax仅凭利润就跑赢了大盘。 这就是Pure-play的价值,算清楚这笔账,对于理解走向拐点时刻的AI行业,非常重要。 在研报里,摩根大通认为中国在2026年的企业端需求,很大概率会复制美国2025年至今的来路,也就是从试点到规模化投入再到AI成为固定支出的三级跳。 简而言之,就是Anthropic的那条离谱曲线。 Anthropic创造了AI行业还是商业史上的创收奇迹,300亿美金的经常性年化收入,让它成为了全球瞩目的新王,甚至让OpenAI的股份交易在一级市场失去了吸引力。 毫无疑问,Coding是一个回报路径极其明确的赛道,根据The Information的报道,在企业级市场,Anthropic展现了空前强势的定价权,从它用按量计费替换订阅套餐,到上线导致Token费用上涨的分词器,都让企业找不到商量余地,只能拿着超标的账单去找老板加大预算。 没办法,品质和稀缺绑在一起,就是硬通货。 摩根大通也是这么判断的,在AI行业,拥有强大模型的公司某种程度上可以豁免于成本战争,而且它想进入「下沉市场」的难度,要远低于低价模型打入「高端市场」。 但Coding是一个已经实现预期的赛道,下一个大的是什么? 目前来看,几天之后的Google I/O大会非常重要,从已经被剧透的Gemini Omni来看,「All In One」的全栈模型要给多模态打翻身仗了。 那个教授在黑板上写公式讲课的片段,之所以艳惊四座,是因为它并非简单的视频生成,这个新的Gemini Omni模型同时搞对了三件事: 手持粉笔的空间关系、板书撰写的画面关系、推导过程的逻辑关系。 更直白的说,这绝对不是三个模型合在一起的结果,而是基座模型已经就在全模态信息上完成了训练,也就是,世界模型的雏形。 像是杨立昆、李飞飞这些不属于Transform派别的行业大佬,都对语言模型颇有微词,认为这条路线跑不出真正的世界模型,所以都选择了另辟蹊径,但Google、OpenAI甚至字节跳动都在证明,即使语言模型确实有局限之处,只要坚持Sc­a­l­i­ng La­ws、在同一个基座模型上训练全模态能力,同样能够渐进式的通向世界模型。 如果只看Coding的叙事,中国的原生AI公司都在扮演「一个更便宜的Anthropic」,杀成一片红海。 但在找出「一个更本土的Google」这件事情上,就会发现阿里、字节和MiniMax都在这么干,只有它们的模型迭代方向与Google完全一致:在一个系统内完成文本理解、图片生成、视频生成和音频输出。 王慧文在即刻上说,一家新兴公司的估值,是由相信它的资本定价的,不是不相信它的人定价的,「好吧,这是句废话。」 多模态的生成是语言模型理解世界的硬验证信号,且大部分底层能力与核心模型复用,多个模态并不等同于多份研发投入,有限的成本提升,能够极具经济性的帮助AI构建世界,并让每一代模型的更新不断放大效率差,并打开更高的智能上限。 我想吹的和期待看到的,其实就是这个。
显示更多
0
8
115
18
转发到社区
好玩,基于浏览器运行的3D细胞模型交互工具,用 React + Three.js 搭建,支持旋转缩放查看、细胞器面板、截图和 GLB 导出,还能从上传图片生成3D模型。
显示更多
有人刚刚成功提取出了 GPT-Image-2 的底层隐藏水印! 你每天生成的 AI 图片,底层早就被打上了数字钢印。 左边是 GPT Image 2 的隐形水印,右边是 Gemini 的 SynthID。它们在图片生成的瞬间直接注入像素,肉眼完全不可见,且免疫任何截图、裁剪和高损压缩。 AI 越逼真,鉴伪越凶狠,而绝大多数用户对此一无所知。
显示更多
0
842
5K
639
转发到社区
推荐阅读:《万字解析 Manus 的 PMF 和 AI Agent 赛道竞争的稳态约束》 作者: “约尔 Yor” 作者问了一个问题:AI应用的数据都在暴涨,但怎么判断用户是真在用,还是只是在尝鲜围观? 作者给出的答案是:别看融资额和PR稿,去看Reddit和Discord上的真实吐槽。这些地方的用户样本偏早期adopter,语气不友好甚至充满抱怨,但恰恰因为他们真的拿AI去干活、为结果承担过现实成本,所以信息密度极高。 先说结论:Manus找到了自己的位置,而且很清晰。 【1】核心发现 Manus 到底解决了什么问题? 一句话:那些不做不行、自己做太累、雇人又不划算的商业杂活。 报税、填表、爬数据、做PPT、跑固定流程,这些任务的特征是输入输出明确、逻辑不复杂、但执行过程冗长琐碎。 Manus覆盖的正是这片结构性真空。 用户付费的四种动机: 1. 花钱换精力(认知代工) 2. 第一次做出原本不会的东西(能力解锁) 3. 比雇人便宜(成本替代) 4. 不想参与繁琐执行(托管) Manus 和 ChatGPT 不是替代关系,而是分工。 ChatGPT 是认知层产品,擅长想清楚;Manus 是执行层产品,负责跑出来。 很多用户先在 ChatGPT 打磨 prompt,再交给 Manus 执行,省积分。 【2】Manus 比 ChatGPT 强在哪 ChatGPT 是认知层产品,擅长对话、思考、解释。 Manus 是执行层产品,能在真实工作流里干活。 具体差异: - Manus 能交付完整调研报告而非只给建议; - 能直接处理 PDF、图片生成表格而非需要大量人工修正; - 能离线持续执行而非需要你盯着; - 能拿到系统权限直接操作服务器和代码仓库。 【3】谁在付费? 核心用户是 Freelancer、一人公司、小型工作室。他们对外售卖判断力,但缺少助理和运营。Manus 提供的是一种"低配组织形态",让个体拥有接近小团队的执行能力。 Manus提供的是一种低配组织形态,让个体拥有接近小团队的执行能力。 付费逻辑很直接:只要比雇人便宜、比自己做省时间,ROI 算得过账就行。 【4】Manus 的软肋? 积分焦虑。Agent 的价值来自交付结果,但计费发生在执行过程,成本和结果脱钩。 用户愿意为结果付钱,但不敢为过程放手。只要执行路径不确定、按 token 计费,就必然制造成本焦虑,抑制用户把更大任务交出去。 用户的积分焦虑本质是“执行不确定性”的定价问题。 【5】更大的问题:这一代AI争夺的稀缺资源是什么? 移动互联网争的是用户时间,AI争的是人类可被外包的经济效用总量:有多少真实工作、决策和表达,人类愿意授权给AI执行。 Token消耗量就像当年移动互联网时代的人均网络流量消耗,只说明为系统消耗了多少资源,不代表为现实世界创造了多少价值。 AI 产品在争夺三种份额: 1. 任务份额 2. 决策份额 3. 产出份额。 【6】终局形态? Manus 之外的机会在三个方向: 1. 深耕垂直领域的专业 Agent 2. AI 加人类服务的混合交付 3. 嵌入工作过程的 Copilot 终局可能不是一个超级智能体,决定天花板的,是谁能进入更高价值、更高责任、更高决策密度的任务结构。 链接:
显示更多
0
6
93
13
转发到社区
Claude 的新功能 Cowork:让 AI 真正帮你干活 Claude Code 本来是给程序员写代码用的,结果大家发现它整理文件、做表格、写报告也很顺手。Anthropic 索性把这套能力包装成了 Cowork,让不会写代码的人也能用上。 【1】Cowork 到底能干啥 你选一个电脑上的文件夹,Claude 就能在里面读文件、改文件、创建新文件。 听起来简单,用起来挺香。比如你下载文件夹乱成一锅粥,让它帮你分类重命名。或者你有一堆消费截图,它能整理成一张 Excel 表。再比如你写了几页凌乱的笔记,它能帮你理顺思路、输出初稿。 和普通对话不一样的是,Cowork 模式下 Claude 更像个真正的助手。你布置任务,它自己规划步骤、一步步执行,中间会告诉你进度。如果你用过 Claude Code,这感觉会很熟悉,因为底层技术是同一套。 【2】还能更强 基础功能只是起点。Cowork 可以接上你已有的连接器,比如 Google Drive、Slack。它还内置了一批技能,能更好地生成文档、PPT 之类的文件。再配上 Chrome 浏览器插件,Claude 甚至能帮你操作网页。 这套设计让工作流变得很丝滑。你不用反复给 Claude 喂上下文,也不用手动把输出转成正确格式。甚至不用等它做完一件事再布置下一件,可以连续丢任务让它并行处理。用 Anthropic 的话说,这感觉不像你一句我一句地聊天,更像给同事留便签。 【3】和 Claude Code 共享技能生态 对 Claude Code 用户来说有个好消息:Cowork 能读取你本地的 文件和自定义 Skills。 我测试了一下,选择工作文件夹后,Cowork 能看到里面的 并按指令执行。我在 Claude Code 里配置的写作风格技能,Cowork 里也能直接调用。技能分两类:Anthropic 官方提供的(docx、pptx、pdf 这些)和用户自己创建的,两类都能用。 换句话说,你在 Claude Code 里攒下的工作流配置可以直接迁移过来。Cowork 不是另起炉灶,是同一套体系的图形化入口。 有个坑要注意:Cowork 跑在 Linux 虚拟机里,而你的 Mac 是 ARM 架构。如果技能依赖 node_modules 或本地特定环境(比如浏览器 cookies、特定架构的二进制文件),就跑不了。我试着调用一个需要运行 nodejs 脚本的图片生成技能,报错了——架构不兼容。纯文本类的配置( 【4】安全边界在哪里 Claude 只能访问你明确授权的文件夹和连接器,动作比较大的时候会先问你。但有几件事得提前知道:Claude 可能会误解你的指令,如果你说"清理一下这个文件夹",它可能真的把文件删了。指令要说清楚。 另一个风险是提示词注入,就是攻击者在网页内容里藏一些指令,试图劫持 Claude 的行为。Anthropic 说他们做了防护,但这个领域整个行业都还在摸索。 这些风险不是 Cowork 特有的,只是很多人可能是第一次用这种更自主的 AI 工具。官方建议:刚开始用的时候谨慎点,别一上来就让它处理重要文件。 【5】现在能用吗 Cowork 目前是研究预览版,只对 Mac 上的 Claude Max 订阅用户开放。Anthropic 想先看看大家怎么用、有什么反馈,然后快速迭代。后面会加跨设备同步,也会出 Windows 版。 这一步到是意料之中,因为 Claude Code 现在已经被用在很多编程意外的领域,但是门槛略高,限制了使用群体是程序员或者懂点技术的用户,而且脚本执行权限会有很多安全上的隐患。Cowork 一下子降低了使用的门槛,通过图形化界面就可以操作,并且也让使用更安全。 现在还是早期版本,能做的事有限,安全机制也在完善中。但如果你是 Max + Mac 用户,值得一试。
显示更多
0
61
551
89
转发到社区
这份年终众包调研来自我在 X 上的随手一问,问了三个问题:2025 年 AI 最关键的技术突破是什么?哪些产品让你眼前一亮?2026 年什么趋势不可忽视? 没想到收到了这么多认真的回复。我花了一两个小时时间,把这些留言和答案汇总整理了一下。 127 条留言,95 个人回答了同样的三个问题。 看完所有答案,我发现大家虽然各有侧重,但在某些判断上出奇一致。答案五花八门,但有些词频繁出现:推理 (Reasoning)、Agent (智能体)、Claude Code、Manus、Nano Banana Pro、NotebookLM、具身智能 (Embodied AI)。 这组词频里有个共同点:“聊天”这个词几乎没人提起了,“干活”这个词开始更多被提起了。 【1】推理革命:AI 学会了慢下来 如果要选 2025 年最重要的技术突破,答案几乎没有悬念——推理能力的工程化落地。 三疯 (@ 3fenglife) 的表述最精准:从“预测下一个词”到“预测下一步行动”。以前的 AI 像个反应快但不过脑子的人,张口就来,经常胡说八道。2025 年的突破在于,AI 学会了在回答之前先想一想——做内部推演、自我检查、发现错误就纠正。 技术上这叫 System 2 Thinking,或者叫 test-time scaling。AI 从“快思考”进化到了“慢思考”。o1、o3、DeepSeek R1 这些模型,都是这条路线的产物。 Ray Zhai(@ Cryptoxorz) 还补充了一个视角——当 AI 开始像人类一样拥有“慢思考”的逻辑链,并能理解真实世界的因果律时,AI 才算真正拿到了进入物理世界的入场券。 岚叔 (@ LufzzLiz) 和 Xin(@ Xin_Jin1018) 点名了一个关键技术:RLVR,基于可验证奖励的强化学习。 以前训练模型需要大量人工标注的数据,告诉模型“这个回答好,那个回答不好”。这很贵,也很慢。而 RLVR 换了个思路:对于数学题和代码这类问题,答案对不对是可以自动验证的。答案对了就给奖励,错了就扣分。不需要人来一条条看。 另一个高频共识是成本拐点。Rainman(@ 0xdeusyu) 和 Robinson(@ python_xxt) 都提到了 MoE 稀疏化架构,DeepSeek R1 证明了一件事:前沿 AI 不再需要前沿预算。意味着推理成本在下降,成为可以普及的基础设施。 还有一类突破被反复提及:Agent 系统化成熟。SLiangD(@ SLiangD) 说得很到位,关键突破不是参数变大,而是三件套终于配合默契了——工具调用、上下文工程、多步推理。AI 能理解“帮我扫描亚马逊眼罩类目,找出评分低但销量高的产品,总结用户抱怨最多的三个痛点”这种复杂任务链了。 【2】年度产品:对话框退场,进度条登台 问到 2025 年哪些产品让人眼前一亮,有一个名字被提到了二十多次:Claude Code。 G_Z(@ GZhan57) 的评价很有画面感:“第一个 work 的 general agent,除了不能生孩子啥都可以。”阿绎 YiOS(@ WangYiNotes) 说得更细腻:“不是因为它写代码有多快,而是它第一次让人感觉是在跟队友协作,而不是在调教工具。” Claude Code 代表的是一类新物种:能把复杂工作流跑通的 AI。它不只是补全代码,还可以自己检索文档、改 Bug、跑测试、完成部署。你扔给它一个需求,它真的能把事办完。 第二名是 NotebookLM。Rocky(@ Rockybnbtrade) 说它让知识输入效率提升了很多,王是子路 (@ atm13999) 说它把枯燥的文档变成极其自然的播客对话。这个产品的价值不在于生成内容,而在于帮你消化和内化已有的知识。 第三名是个意外:Nano Banana Pro,谷歌 Gemini 的生图功能。defyong(@ defyong) 的评价很有意思:“结合 Gemini 的感知与知识库,图片生成不再是凭感觉。第一次让我觉得,这个生图工具,她活起来了。”Steven Qi(@ Jason_qeb) 补充说中文支持是个大突破,文生图、图生视频、图生 PPT 都变得可行了。 视频生成虽然没有 Claude Code 和 Nano Banana Pro 那么高频,但也收获了一批提名。Roland(@ Roland_WayneOZ) 和小镇记录家 (@ liangde_li40657) 都提到了 Sora、可灵、即梦等产品的突破,cicada(@ thebestsetup) 直接把 Veo/Sora 列为年度最惊艳。JCat(@ JackyisThinking) 的判断更进一步:视频生成会在 2026 年更加成熟,影视行业尤其是低成本特效和动画行业将全面 AI 化。这条赛道的特点是"看得见摸得着",普通人也能直观感受到 AI 的进步,所以虽然技术门槛高、商业化慢,但对大众认知的影响可能比编程工具更大。 空间智能是另一个被多人点名的方向。JCat(@ JackyisThinking) 说得最清楚:机器人产业要落地,AI 就必须具备更高阶的 3D 空间识别、理解和推理能力,这是绕不过去的坎。Ray Zhai(@ Cryptoxorz) 和 suwakopro(@ suwakopro) 都提到了"世界模型"这个概念——AI 不能只在文字和图片的世界里打转,它得理解真实世界的因果律和物理规则。小洲洲的 AI 日常 (@ LZhou15365) 观察到具身智能已经在快速进化:"从走姿、行动都越来越像人类。"当 AI 学会了"慢思考",下一步就是让它学会"动手做事",空间智能是连接数字世界和物理世界的那座桥。 还有一批产品被多人提及:Cursor 和 Windsurf 这类 AI IDE,Deep Research 深度研究,Manus 和 Youmind 这类通用 Agent,可灵和 Sora 的视频生成。 但最让我印象深刻的是三疯 (@ 3fenglife) 的一句总结:让人惊艳的不再是对话框,而是进度条——它在后台默默把事办完了。Ray Zhai(@ Cryptoxorz) 把这种体验叫做“感知消失,效率倍增”,这才是技术真正闭环的瞬间。 这才是 2025 年产品形态的本质变化。 【3】2026 路线图:从“教 AI 怎么做”到“告诉 AI 我要什么” 关于 2026 年的趋势,答案的集中度比我想象的高。 第一个共识是 Agent 大规模落地。 超过三分之一的人提到了这个方向。什么是 Agent?简单说,就是 AI 不再只是回答问题,还能自己拆解任务、调用工具、一步步执行,最后交付结果。 Ray Zhai(@ Cryptoxorz) 的描述很有画面感:未来不再是你一个人对着一个 AI,而是你拥有一个 AI 舰队。它们会自动分工、自我纠错、自发存储数据。我们将从“教 AI 怎么做”转向“告诉 AI 我要什么”。 SLiangD(@ SLiangD) 用黄金圈法则做了一个漂亮的框架切分:Why(为什么做)和 What(做什么)仍然是人的领地,AI 无法替代;但 How(怎么做)将彻底交给机器,趋近于零成本瞬间完成。 这意味着什么?未来的竞争力不是“会用 AI”,而是“会定义问题”。 第二个共识是具身智能。 码上盈 (@ InnaLyceyum) 预测 Agent 将不再只存在于浏览器中,而会深度集成到智能硬件——从智能眼镜到桌面机器人,AI 将获得空间感知与物理交互能力。阿绎 YiOS(@ WangYiNotes) 说得更极端:2026 年我们可能不再讨论哪个 AI 产品好用,因为 AI 已经内嵌在 OS 和硬件的每一寸肌理里了。 第三个共识是 AI 的“私人化”和“记忆化”。 Cunningham Card(@ Card198454) 强调 Memory 方向的突破会让 Agent 更像人,拥有社会属性。AI 将从千篇一律的工具,演变成极度个性化、具备连续记忆的数字助手。 三疯 (@ 3fenglife) 还提出了一个颠覆性预测:SaaS 的消亡,Service 的崛起。你不再订阅“写作软件”,你订阅的是“文案产出服务”;你不再订阅“CRM 系统”,你订阅的是“销售线索清洗服务”。软件会员变成结果订阅,这是商业模式的根本重构。 当然也有清醒的声音。 Michael Guo(@ Michaelzsguo) 认为 2025 年 AI 基本没有关键技术突破,都是沿用 2024 年的路线做性能提升。Tony Lee(@ lee810860) 预测 AI 厂商加速倒闭。熊布朗 (@ Stephen4171127) 直接说“没有什么是不可忽视的必然路径”。 也不能说这些声音是悲观,更像是提醒我们:共识不等于正确,热情不能代替验证。 【4】最后 AI 的演进已经进入新阶段。2024 年大家还在争论哪个模型更聪明,2025 年这个问题变得不那么重要了,重要的是谁能把活干完。从“会说”到“会做”,从“输出文本”到“交付结果”,这是范式级的转变。 来自 Roland(@ Roland_WayneOZ) 和 SLiangD(@ SLiangD) 的一句话适合用来作为结尾: 2025 年是 AI 学会干活的元年。2026 年的赢家,不是最会用 AI 的人,而是最会定义问题的人。 我把整理后的结果放到 Google Sheet 上了:
显示更多
0
23
247
45
转发到社区
太强了,Nano Banana 模型在人物穿搭方面的表现令人惊艳,人物一致性达到了完美境界。对于想看服装上镜效果的女生来说,这简直是终极解决方案,完美复现虚拟试穿,这是我目前体验过的最出色的 AI 图片生成模型。 #NanobananaAI# 人物图片来源:instagram 搭配图片来源:pinterest Prompt:图2女生穿搭图1中的服装和配饰
显示更多
玩了下Gemini 2.0 Flash Experimental模型 直达地址: 出来的图片不是很满意,又用平替软件image-fx重新做图,两者结合能出来一致性的故事内容,如果需要变成视频,用即梦里面的图片生成视频+分镜描述就可以。 重点是都免费,可以无限制生成,做做还蛮费时间的
显示更多
0
12
49
9
转发到社区
如果能把图片生成限制再越狱一下就无敌了,既然生成了文字,配图肯定不能少哈,你们试试看不同类型的配图描述
简单用图片生成视频来做视频分镜,基本上输入分镜头语言描述就可以出来视频,多生成几个拼接在一起就是一个小短片。可灵【高表现】模式下细节和画质上还是能用用的,可惜每天只能用3次。@Kling_ai 提示词:黑色跑车以300码速度疾驰在街道上,大幅度动作,速度感,电影级画面 #图片生成视频# #可灵AI工具# #KlingCreativeSpace#
显示更多