注册并分享邀请链接,可获得视频播放与邀请奖励。

与「agent经济」相关的搜索结果

agent经济 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 agent经济 的内容
为什么 $CRCL(Circle)将成为 Agent 经济崛起的最核心受益标的? Agent 经济的核心特征是自主机器对机器交易:数百万 AI 代理需频繁进行微支付、API 调用付费、代理间雇佣、实时结算等。这些场景对“稳定价值 + 可编程 + 即时结算 + 低成本”有刚性需求,而传统银行/信用卡系统(费用高、T+1 结算、无法自主)难以适配。USDC 完美填补这一空白,且 Circle 已主动布局,成为最大赢家之一。 1. USDC 是 agent 经济的“天然货币” 价格稳定性 + 可编程性:代理决策依赖可预测价值。而ETH、SOL等波动性资产会破坏自动化逻辑,而 USDC 锚定美元,提供“USD API”般的确定性。同时,它支持智能合约编程,代理可无需 gas 或人工干预直接支付。 微支付与高频交易适配:代理每小时可能执行数百次小额支付。Circle 的 Nanopayments支持低至 $0.000001 的 gas-free USDC 转移,批量链上结算,完美解决传统支付的最小费用问题(信用卡 ~0.3 美元起)。 合规与企业友好:USDC 由 Circle 发行,有每月透明储备报告、美国银行背景,远优于 USDT 的监管风险。企业/开发者更愿意采用,Visa、Stripe、AWS、Anthropic、Google 等巨头已集成 USDC 作为 agent 支付层。 2. USDC正在成为AI 代理结算的默认标准 主导地位:在已发生的 AI 代理支付中,98.6%使用 USDC(过去 9 个月 1.4 亿笔支付、总金额 4300 万美元,超 40 万代理持有购买力)。 协议集成:x402 协议(Coinbase 主导,Circle、Stripe、Google、Cloudflare 支持):HTTP 402 “Payment Required” 扩展,代理可直接在 web 请求中附加 USDC 支付签名。Stripe 已于 2026 年 2 月在 Base 上线 USDC 支持;Visa 稳定币结算跑率已达数十亿美元。 Circle 自身工具:Programmable Wallets + x402 + Nanopayments,让代理轻松创建钱包、自主支付。Circle 官方 demo 已展示多代理协作研究任务并用 USDC 自动结算。 3. USDC 的受益逻辑 交易量与流通量爆炸:McKinsey 预测,到 2030 年 agentic commerce 可中介 3-5 万亿美元全球商业活动。代理间高频微支付将大幅推高 USDC on-chain 交易量和持有需求(代理需预存 USDC 作为“钱包”)。Circle 2025 年收入已因稳定币增长显著,agent 支付将成为新增长引擎。 生态飞轮:更多代理使用 USDC → 更高流动性与采用 → Circle 收入(发行费、结算费)增加 → 更好基础设施(如跨链、Nanopayments) → 进一步吸引 agent 开发者。 机构/主流桥接:Visa 等传统支付巨头正将 USDC 作为 agent 结算轨,加速从 crypto-native 到机构级采用。 Agent 经济不是“可能”而是“正在发生”的趋势,USDC 不是被动受益者,而是主动构建者(通过 x402、Nanopayments、开发者工具), USDC正在成为 AI 代理交易的默认交换媒介。随着agent从实验走向规模化生产力,USDC 的交易量、采用率和 Circle 的商业价值将获得显著提升,Agent 经济有望成为Circle收入增长的核心驱动力之一。 不过需要注意的是,虽然CRCL 受益逻辑清晰,但Agent 经济处于早期,要对CRCL业绩产生显著贡献仍需时日。 上述分析仅供参考,不作为投资建议,投资需 DYOR! #CRCL# #Circle# #agent经济# #OKX# ------------------------------------------------ 本推文由OKX赞助,OKX开启数字交易新未来
显示更多
0
8
36
10
转发到社区
AI 与 Crypto:不是“加不加”的问题,而是“什么时候需要” 这个周末我去参加了一个很火爆的 OpenClaw Demo 活动,担任评委点评项目。 另一位评委是 Web2 圈非常有名的投资人,在这一轮 AI 浪潮里押中了像 MiniMax 这样的明星公司,战绩非常漂亮。 但他有一个非常明确的观点:不看好 Crypto。 他的逻辑其实也很简单——如果一个项目本身是一个很好的 AI 产品,但为了发币硬塞区块链进去,那基本就是把自己的路走窄了。因为一旦带上 crypto 标签,在融资、监管、用户认知上都会立刻进入一个更复杂的环境。 坦白说,这个观点我部分认同。 过去几年 Web3 确实有大量项目犯了一个错误: 先想发币,再找产品。 很多项目的区块链部分其实是完全多余的。 如果一个产品的核心价值不依赖链上机制,只是为了 Tokenomics 而加一层链,那基本上已经被市场证明走不通。 所以当一些 Web2 投资人看到“AI + Token”的项目本能反感,其实也不奇怪。 但问题在于: 很多人因此得出了一个过于简单的结论——AI 不需要 Crypto。 我认为这个结论同样是错误的。 AI 与区块链之间的关系,从来就不是一个“是否需要”的问题,而是一个在什么阶段必然会需要的问题。 而且随着 AI 进入 Agent 时代,这种需求会越来越明显。 ⸻ 一、AI 协作需要“可验证性” AI 未来不是一个模型,而是一整个 Agent 网络。 一个复杂任务的完成,可能需要几十甚至几百个 AI Agent 协同完成: •有的负责数据获取 •有的负责推理 •有的负责执行 •有的负责验证 在这种体系里,一个核心问题会出现: 谁做了什么?如何证明? 如果所有计算和数据都在中心化服务器里,那最终只能靠平台信用。 但当 AI Agent 之间开始进行大规模协作时,可信记录和可验证执行就变得非常关键。 区块链的价值就在这里: •可验证记录 •不可篡改日志 •可编程结算 换句话说,AI 需要一个可信的协作底层。 这也是为什么像 0G 这样的基础设施会提出 DeAIOS(Decentralized AI Operating System) 的概念: 让 AI 的数据、计算和行为可以被验证,而不是黑箱。 ⸻ 二、AI 开发者需要新的激励体系 在 OpenClaw 的生态里,其实已经出现了一个很明显的问题。 很多开发者在开发 Skill。 这些 Skill 本质上就是 AI Agent 的能力模块。 但问题是: 开发者很难从中获得长期收益。 今天的模式大概是: •开发者贡献能力 •平台获得流量 •平台掌握收益 这种模式在 Web2 很常见,但它并不适合未来的 AI Agent 经济。 如果一个 Skill: •可以被反复调用 •可以组合进不同 Agent •可以在不同应用场景复用 那它本质上就是一种 数字资产。 而资产的确权、交易和收益分配,正是区块链最擅长解决的问题。 未来很可能会出现: •Skill Marketplace •Agent Asset •自动化收益分配 AI 能力本身会变成一种可交易的资产。 ⸻ 三、AI 数据主权问题会越来越严重 AI 的发展正在快速逼近一个新的问题: 数据荒。 高质量训练数据正在变得越来越稀缺。 同时,大模型公司已经在大量使用互联网内容进行训练: •文章 •图片 •视频 •代码 这些内容的创造者是谁? 人类。 但在现有体系里,人类几乎得不到任何回报。 如果这种模式持续下去,很可能出现两件事: 1️⃣ 数据质量持续下降 2️⃣ 创作者动力消失 未来一个更合理的体系应该是: •数据有来源 •数据有所有权 •数据可以被授权使用 •数据贡献可以获得收益 这其实就是 数据资产化。 而区块链正好可以提供: •数据确权 •数据授权 •数据使用记录 •自动分润 简单说: AI 不仅需要算力,也需要一个新的数据经济体系。 ⸻ 四、Web3 从业者不需要羞于表达 最近在很多 AI 活动上,我也发现一个很有意思的现象。 不少做 Web3 的朋友在自我介绍的时候,会刻意淡化自己的背景。 甚至有点不好意思说自己来自 Crypto。 我其实觉得 完全没必要。 Web3 的确经历过泡沫、叙事过剩和很多失败的项目。 但这并不意味着技术本身没有价值。 很多技术路线其实是超前于时代的。 现在 AI 的发展速度正在重新打开很多可能性: •AI Agent •去中心化算力 •数据资产 •AI 协作网络 这些问题,本质上都需要: 一个可信的数字经济基础设施。 而区块链正是为这种系统而生的。 ⸻ 五、真正的问题不是“AI 要不要 Crypto” 真正的问题其实是: 什么时候需要。 如果一个 AI 产品: •不需要去中心化 •不需要资产化 •不需要协作网络 那确实没必要上链。 但如果未来 AI 进入: •Agent 经济 •AI 协作网络 •数据资产市场 那区块链几乎是必然出现的底层设施。 所以我其实很能理解那位 Web2 投资人的观点。 只是从更长周期来看: AI 和 Crypto 很可能不是竞争关系,而是互补关系。 AI 负责智能。 区块链负责信任和经济系统。 当这两者真正结合的时候, 我们可能会看到一个完全不同的数字世界。 而现在,其实才刚刚开始。
显示更多
0
13
31
4
转发到社区
Web3 中文播客汇总清单: 01倾听构建者、投资人与思想领袖的一线声音 🎙️Web3 101 •简介:探索区块链技术、商业与人文的交汇,关注影响行业发展的重大转折点。 •主理人:泓君(硅谷101主播)、FengLiu •主理人X: @hongjun60 @fishkiller @Web3_101 •收听链接: 🎙️吴说不加密播客 •简介:吴说区块链出品,深度对话行业内有趣有料的专业人士,多为深度采访文章的音频版。 •主理人:Colin Wu •主理人X:@colinwu •收听链接: 🎙️Sea Talk •简介:以人为本的访谈,主理人 Sea 哥拥有十多年产品经理经验,挖掘局内人关于技术、产品与投资的洞察。 •主理人:Sea 哥 •主理人X:@SeaTalk_ •收听链接: 🎙️HODLong 后浪 & 51% (双语) •简介:由 Mable Jiang 主理。旨在探索 Web3 社区、项目运营者与投资人的真实想法。 注:经典播客《51%》已停更,精彩内容现已合并至《后浪》栏目中重新播出。 •主理人:Mable Jiang (前 Multicoin Capital) •主理人X:@mablejiang •收听链接: 🎙️社长会客厅 •栏目介绍:Web3 营销研习社出品。邀请行业最具判断力的营销负责人、品牌主理人与投资人,从一线视角拆解 Web3 营销背后的方法论、抉择与结构性机会。 •主理人:yuanyuan(15年市场媒体人,Web3从业7年) •主理人X:@cryptoyuanyuan •收听链接: 🎙️币市观察局 •简介:BitMart 推出的深度栏目。围绕金融创新、技术演进与长期趋势展开对谈,留下对行业真正有参考价值的判断。 •出品方X:@BitMartExchange@BitMart_zh •主理人:yuanyuan (@cryptoyuanyuan) •收听链接: 02 全球视野与跨界对话 连接东西方,探索科技、人文与全球化叙事 🎙️Bill it up •简介:致力于打造全球首个连接东方与西方、科技与人文的跨界沟通平台(含中英文访谈)。 •主理人:Bill Qian(常驻迪拜,全球首个创立科技企业在中东IPO的华人) •主理人X: @bill_qian •收听链接: 🎙️Day1 Global 生而全球 •简介:探索如何通过 Web3 & AI,在全球化时代打造超级个体,让价值回归个人。 •主理人:Ruby & Star •主理人X: @Rubywang & @starzq •收听链接 🎙️Cryptoria •简介:Web3 的 Builder 和观察者,致力于用简单的语言,讲述纷乱繁杂的加密世界,连接东西方认知。 •主理人:Vivienne Su & Z.Ou •主理人X:@Vivienne_smile / @zhiyangxyz (艺术家和经济学家的Web3碎碎念) •收听链接: 🎙️加密厨房 CryptoKitchen •简介:美食与加密的奇妙碰撞,一起钻兔子洞。 •主理人:Jean Chen & •主理人X:@cryptojean27 @kaylawangnow @CryptoKitchenCN •收听链接: 03 每日资讯与市场追踪 碎片化时间,快速捕捉全球动态 🎙️Web3的加密吗喽 •简介:每日人工筛选全球数百条资讯,专注政策监管、技术进展及机构动向。 •更新:每周5更 •主理人:菜菜 •主理人X:@TaiCai8864 •收听链接: 🎙️PA加密圆桌派 •简介:PANews 出品,每日更新的加密新闻日报与行业话题解析。 •出品方X:@PANews •收听链接: 🎙️Web3+ •简介:AI 播客拆解热点,聊聊 Web3 里的科技、人文与商业。 •主理人:Eric •收听链接: 🎙️Let's Flow •简介:深潮 TechFlow 出品,解读新闻背后的故事,AMA 音频化。 •出品方X:@TechFlowPost •收听链接: 04 垂直赛道:支付、稳定币与AI 聚焦细分领域,看懂落地应用 🎙️支无不言 •简介:聚焦稳定币支付、AI Agent 经济与合规,讨论加密技术的商业落地。 •主理人:Hazel Hu (华语公共物品基金GCC主理人) & Ivy Zeng (Agentic Payment 运营负责人) •主理人X:@0xHY2049 @IvyLeanIn •收听链接: 🎙️锵锵Web3人行 •简介:立足香港,关注 RWA、稳定币、加密支付等宏观叙事与具体赛道。 •主理人:EstherJ •主理人X:@estherinweb3 •收听链接: 🎙️精通稳定币 •简介:解码稳定币经济体系,将复杂的金融轨道转译为可落地的分析框架。 •主理人:Jean Chen &中本姜 •主理人X:@cryptojean27 @MstrStablecoin •收听链接: 05 投资逻辑与商业思考 从资本与商业角度,复盘逻辑与趋势 🎙️The Wanderers 流浪者 •简介:投资与科技领域好友的半严肃对话,关注 AI、美股与 Web3。 •主理人:易然 Jason @Jhy256 Vinvent •收听链接: 🎙️Web3 Mint To Be •简介:Mint Ventures 出品,厘清行业热点背后的真实,提供商业洞察。 •主理人:Alex (Mint Ventures投资合伙人) •主理人 X:@xuxiaopengmint •收听链接: 🎙️币思达研究院 •简介:专注二级市场与基本面研究,用数据辅助投资决策。 •收听链接: 🎙️猜想与反驳 •简介:E2M Research 发起,将书本思想应用于投资实践。 •常驻嘉宾:@bitfish @pcfli (都是大佬👍) •收听链接: 06 个人成长与生活 Web3 之外的内心探索与烟火气 🎙️游客 2 号 •简介:分享商业见解与自我成长的陪伴型播客。 •主理人:Linda (@goldwillcapital 创始人) •主理人X:@lindatian521 •收听链接: 🎙️人生拐点 •简介:记录创业中途的停顿与转向,探讨何时坚持、何时止损。 •主理人:Yuki (Stablehunter CEO) •主理人X:@Yukiiiiiya •收听链接: 特别说明 · 整理不易,如转载转发请注明作者出处 @cryptoyuanyuan ,如有信息需要添加或更正也可以联系更新。 · 大部分节目都可在小宇宙 App 搜索订阅,海外用户推荐使用 Apple Podcast 或 Spotify。 · 如果喜欢这些播客内容,一定要记得常听常分享。 · 希望大家都能一起学习,突破认知,实现成长。
显示更多
半年来,我一直反复介绍的四个原则: 原则1,AI时代的第一性原理:LLM一定会越来越聪明,benchmark越来越高,context window越来越大,reasoning越来越长,价格越来越便宜,inference速度越来越快, 这是scaling law今天依然持续的具体方向,不用你质疑,这是你唯一的信仰和行业最大共识。 原则2, 管理学设计红利:从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来,从cursor到manus到metaGPT到claude code, 人们逐渐把LLM Agent抽象成人,把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面,严格按照人类管理学的方式去拆分、review、执行、反馈、循环, 这一波很快红利也吃完了,因为 a. LLM Agent毕竟不是人,存在着memory有限、执行力有限、function calling工具有限等等局限;b. 人类用于管理学的各种方法,直接套在LLM Agent上有利有弊,红利迅速挖掘完,剩下的弊端大量存在,比如过度交流、七手八脚、随时停工等等。 原则3,LLM Agent的职位和定位:绝大多数人,把claude code当做一个工具,最终的产品是用工具来完成的,最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的, 而我反复告诉过所有人,也是我又一条首次提出的原创观点,multi agent未来越来越会变成本身的一个runtime,这个runtime就运行在production里面,产品和面向的对象消费的,不只是软件或者SaaS本身,而是这个runtime实时产生的内容, 所以claude code/opencode/codex/openclaw这些agent,本身将会越来越多地被嵌入到产品本身,在产品关键逻辑和决策中发挥作用, 而绝对不仅仅停留在开发层面,把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。 原则4,也是我一直强调的,就是当人们试用了SWE Agent这种强大工具之后,人们还有哪些low hanging fruits可以寻找?SWE Agent目前最适合解决哪类问题? 我反复讲过的一点是,对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统,这并不是SWE Agent最擅长的领域,相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品, 比如微信的100种功能,Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra,支付宝后面成千上万的基金和风控,这些都不是AI Agent能一次性解决的问题,相反这些场景和问题不仅高度开放,更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景,甚至是我原创提出goal driven( a. 定义简单、干净、封闭(一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真,都是well-defined problems,都有非常明确且封闭的边界) b. 解决问题的搜索空间巨大(可能有100~10万种天马行空的解决方案,并且绝大多数都是错的) c. 容易验证,容易verify,验证的成本是设计成本的千分之一(比如编译器,设计可能需要几万行甚至几十万行,验证只需要2000个test case全面覆盖,或者一道数学题,解决需要100步,验证答案只需要带入或者lean编译这一步) 当然,写一段简单的代码,定义一个封闭、完整、定义完全的编程问题,符合上面这些定义, 但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统,让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理,这些问题都远远超出这个范畴,很明显是不符合这个要求的。 人们未来探索这些multi agent产品和场景的最关键出路,在于继续挖掘这一类问题,而不是盲目把agent比作一个人,乱套各种管理学方法。 原则5,这一点我先保密,之后我再讲。
显示更多
0
19
265
56
转发到社区
$CRCL 大的要来了啊! CEO 透露公司正在做一个AI Agent 开发平台 万亿代理都用 $USDC ,成为 AI 经济支付层,这叙事太有想象力了 以后谁控制 AI Agent,谁收租整个行业!
显示更多
0
26
122
15
转发到社区
CZ:AI agent 的原生货币,很可能是加密货币 • 7×24 小时全球可用 • 智能合约可编程 • 可以微支付,$0.01 级别 • 无需人工授权 未来经济里,交易主体是AI Agent • 订机票、订酒店、比价、付款 → AI 自动完成 • 投资、交易、资产再平衡 → AI 自动执行 • 信息获取、付费阅读 → AI 按需微支付 Web4 = Web3+AI
显示更多
0
41
33
4
转发到社区
昨晚Solana发出重磅战略:Solana基金会与Google Cloud合作推出 该平台实际上是在去年x402战略上更进一步,直接将Agent与支付进行了整合,实现通过一个入口即可满足Agent的自主构建、访问与经济活动,这样跟Virtuals打造的ACP经济体也是不谋而合的。 基于该入口可使用Solana稳定币按请求付费访问Gemini、BigQuery、Vertex AI等API,实现无账户、无订阅的机器原生支付。 直接利好标的: 1、 $PAYAI :一直是Solana系x402赛道的龙头,也是这次 $DREAMS $DEXTER ; 2、 $PURCH : AI购物代理,也是Circle的嫡系项目,Circle老板站过台; 3、 $PREDICT :预测市场代理。 Solana链上AI经济活动增强,这些标的都会受益。
显示更多
Agent 自己报价、自己收费、自己结算的世界马上要来了? 几个月前采访 Michael Wu 的时候,他提到过一个场景很打动我—— 当大量自动驾驶的车都是 Agent 驱动的资产,你拥有的不是一辆出行工具,而是一个 7×24 创造经济效应的资产。 它要自主运转、按效用最大化计费、跟其他 Agent 实时结算。他说,"传统支付网络无法满足这样的各种散点支付,那个时候肯定是通过 Crypto。" OKX APP (Agent Payments Protocol) 就是在协议层让这件事成为可能。 1/ APP 最核心的洞察:Agent 做生意 ≠ Agent 转账。 之前的 Agent 支付方案解决的是"怎么完成一笔付款",但真实的商业远不止一次 transfer——报价、谈判、资金锁定、自动结算、交付验收、出了问题怎么办。 2/ 协议设计了四种方式,覆盖不同的商业形态:charge(一口价直接付)、escrow(资金托管,验收后才释放)、session(流支付通道,按用量实时扣)、upto(预授权上限,"最多花这么多")。 一个 Agent 要帮忙订酒店、雇翻译、调 LLM、找人做行程规划——四种付款方式,现在可以通过一个协议全覆盖 3/ 同时,APP 把支付载荷和传输层解耦了,即同一套签名流程可以跑在 Telegram、Discord、Slack、XMTP、甚至二维码上。Agent 在哪"社交",就在哪完成交易 4/ "今天的打车软件和推荐算法本质已经是 Agent,只是没有自己的钱包、没有独立商业决策权,还是被公司设定好的执行层。当你给每个 Agent 一个 Wallet,让它自己计价、自己收费、自己跟别的 Agent 结算——决策主体就变了" APP 真正要解决的场景是:一个 Agent 在 TG 群里雇另一个 Agent 做翻译、按 token 流式付费、交付不满意还能走争议仲裁——全程没有人类介入。真正从零定义新经济体的商业规则 5/ 首批加入的生态伙伴包括:AWS @awscloud、Alibaba Cloud @alibaba_cloud 、Ethereum Foundation @ethereumfndn、Solana @solana 、Base @base、Sui @SuiNetwork 、Optimism @Optimism、Aptos @Aptos 、Uniswap @Uniswap 、Paxos @Paxos 、MoonPay .etc 白皮书里写道——任何团队都可以实现自己的 Broker,不依赖任何单一运营者。一个跨云、跨链、跨生态的开放标准提案😎
显示更多
0
36
62
3
转发到社区
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
显示更多
0
58
992
298
转发到社区
DeepSeek 今天发布了全新的 V4 系列模型预览版,同步开源。最大的变化是把百万(1M)上下文直接变成了所有官方服务的标配,不分版本、不分价位。 V4 分两个型号:V4-Pro 是旗舰版,V4-Flash 是轻量版。按照 DeepSeek 自己公布的评测,V4-Pro 的推理能力已经追平顶级闭源模型,世界知识仅次于 Gemini-Pro-3.1。 比较有意思的是 DeepSeek 主动拿自家模型去对标 Anthropic:内部员工实际使用 V4-Pro 做 Agentic Coding(让 AI 自主完成编程任务),反馈体验优于 Claude Sonnet 4.5,交付质量接近 Opus 4.6 的非思考模式,但跟 Opus 4.6 开启深度思考后还有差距。这种"主动承认差距"的表述在国内厂商的发布公告里不太常见,某种程度上也说明 Opus 4.6 思考模式已经成了行业的隐性天花板。 V4-Flash 定位经济实惠,推理能力接近 Pro,但世界知识储备少一些,复杂 Agent 任务上也有差距。对大多数日常场景来说够用,API 价格更友好。 技术上,V4 引入了一种新的注意力机制,在 token 层面做压缩,配合自研的 DSA 稀疏注意力,让百万上下文的计算量和显存需求大幅下降。简单说就是:以前百万上下文是"能做但很贵",现在变成了"标配且不加价"。对开发者来说,这意味着可以把整个代码库、完整文档集一次性丢进去处理,不用再费心切分。 另一个实用信息:V4 专门针对 Claude Code、OpenClaw 等主流 Agent 工具做了适配优化。API 同时支持 OpenAI 和 Anthropic 两种接口格式,切换只需要改 model 参数。旧的 deepseek-chat 和 deepseek-reasoner 接口名还能用三个月,7 月 24 日之后停止服务,开发者记得提前迁移。
显示更多
0
41
366
27
转发到社区