搜索 agent经济相关的推文与用户

2026.05.04 02:04

为什么 $CRCL（Circle）将成为 Agent 经济崛起的最核心受益标的？ Agent 经济的核心特征是自主机器对机器交易：数百万 AI 代理需频繁进行微支付、API 调用付费、代理间雇佣、实时结算等。这些场景对“稳定价值 + 可编程 + 即时结算 + 低成本”有刚性需求，而传统银行/信用卡系统（费用高、T+1 结算、无法自主）难以适配。USDC 完美填补这一空白，且 Circle 已主动布局，成为最大赢家之一。 1. USDC 是 agent 经济的“天然货币” 价格稳定性 + 可编程性：代理决策依赖可预测价值。而ETH、SOL等波动性资产会破坏自动化逻辑，而 USDC 锚定美元，提供“USD API”般的确定性。同时，它支持智能合约编程，代理可无需 gas 或人工干预直接支付。微支付与高频交易适配：代理每小时可能执行数百次小额支付。Circle 的 Nanopayments支持低至 $0.000001 的 gas-free USDC 转移，批量链上结算，完美解决传统支付的最小费用问题（信用卡 ~0.3 美元起）。合规与企业友好：USDC 由 Circle 发行，有每月透明储备报告、美国银行背景，远优于 USDT 的监管风险。企业/开发者更愿意采用，Visa、Stripe、AWS、Anthropic、Google 等巨头已集成 USDC 作为 agent 支付层。 2. USDC正在成为AI 代理结算的默认标准主导地位：在已发生的 AI 代理支付中，98.6%使用 USDC（过去 9 个月 1.4 亿笔支付、总金额 4300 万美元，超 40 万代理持有购买力）。协议集成：x402 协议（Coinbase 主导，Circle、Stripe、Google、Cloudflare 支持）：HTTP 402 “Payment Required” 扩展，代理可直接在 web 请求中附加 USDC 支付签名。Stripe 已于 2026 年 2 月在 Base 上线 USDC 支持；Visa 稳定币结算跑率已达数十亿美元。 Circle 自身工具：Programmable Wallets + x402 + Nanopayments，让代理轻松创建钱包、自主支付。Circle 官方 demo 已展示多代理协作研究任务并用 USDC 自动结算。 3. USDC 的受益逻辑交易量与流通量爆炸：McKinsey 预测，到 2030 年 agentic commerce 可中介 3-5 万亿美元全球商业活动。代理间高频微支付将大幅推高 USDC on-chain 交易量和持有需求（代理需预存 USDC 作为“钱包”）。Circle 2025 年收入已因稳定币增长显著，agent 支付将成为新增长引擎。生态飞轮：更多代理使用 USDC → 更高流动性与采用 → Circle 收入（发行费、结算费）增加 → 更好基础设施（如跨链、Nanopayments） → 进一步吸引 agent 开发者。机构/主流桥接：Visa 等传统支付巨头正将 USDC 作为 agent 结算轨，加速从 crypto-native 到机构级采用。 Agent 经济不是“可能”而是“正在发生”的趋势，USDC 不是被动受益者，而是主动构建者（通过 x402、Nanopayments、开发者工具）， USDC正在成为 AI 代理交易的默认交换媒介。随着agent从实验走向规模化生产力，USDC 的交易量、采用率和 Circle 的商业价值将获得显著提升，Agent 经济有望成为Circle收入增长的核心驱动力之一。不过需要注意的是，虽然CRCL 受益逻辑清晰，但Agent 经济处于早期，要对CRCL业绩产生显著贡献仍需时日。上述分析仅供参考，不作为投资建议，投资需 DYOR！ #CRCL# #Circle# #agent经济# #OKX# ------------------------------------------------ 本推文由OKX赞助，OKX开启数字交易新未来

显示更多

0

8

36

10

转发到社区

Jtsong.eth (Ø,G)@Jtsong2

2026.03.09 14:30

AI 与 Crypto：不是“加不加”的问题，而是“什么时候需要” 这个周末我去参加了一个很火爆的 OpenClaw Demo 活动，担任评委点评项目。另一位评委是 Web2 圈非常有名的投资人，在这一轮 AI 浪潮里押中了像 MiniMax 这样的明星公司，战绩非常漂亮。但他有一个非常明确的观点：不看好 Crypto。他的逻辑其实也很简单——如果一个项目本身是一个很好的 AI 产品，但为了发币硬塞区块链进去，那基本就是把自己的路走窄了。因为一旦带上 crypto 标签，在融资、监管、用户认知上都会立刻进入一个更复杂的环境。坦白说，这个观点我部分认同。过去几年 Web3 确实有大量项目犯了一个错误：先想发币，再找产品。很多项目的区块链部分其实是完全多余的。如果一个产品的核心价值不依赖链上机制，只是为了 Tokenomics 而加一层链，那基本上已经被市场证明走不通。所以当一些 Web2 投资人看到“AI + Token”的项目本能反感，其实也不奇怪。但问题在于：很多人因此得出了一个过于简单的结论——AI 不需要 Crypto。我认为这个结论同样是错误的。 AI 与区块链之间的关系，从来就不是一个“是否需要”的问题，而是一个在什么阶段必然会需要的问题。而且随着 AI 进入 Agent 时代，这种需求会越来越明显。 ⸻ 一、AI 协作需要“可验证性” AI 未来不是一个模型，而是一整个 Agent 网络。一个复杂任务的完成，可能需要几十甚至几百个 AI Agent 协同完成： •有的负责数据获取 •有的负责推理 •有的负责执行 •有的负责验证在这种体系里，一个核心问题会出现：谁做了什么？如何证明？如果所有计算和数据都在中心化服务器里，那最终只能靠平台信用。但当 AI Agent 之间开始进行大规模协作时，可信记录和可验证执行就变得非常关键。区块链的价值就在这里： •可验证记录 •不可篡改日志 •可编程结算换句话说，AI 需要一个可信的协作底层。这也是为什么像 0G 这样的基础设施会提出 DeAIOS（Decentralized AI Operating System）的概念：让 AI 的数据、计算和行为可以被验证，而不是黑箱。 ⸻ 二、AI 开发者需要新的激励体系在 OpenClaw 的生态里，其实已经出现了一个很明显的问题。很多开发者在开发 Skill。这些 Skill 本质上就是 AI Agent 的能力模块。但问题是：开发者很难从中获得长期收益。今天的模式大概是： •开发者贡献能力 •平台获得流量 •平台掌握收益这种模式在 Web2 很常见，但它并不适合未来的 AI Agent 经济。如果一个 Skill： •可以被反复调用 •可以组合进不同 Agent •可以在不同应用场景复用那它本质上就是一种数字资产。而资产的确权、交易和收益分配，正是区块链最擅长解决的问题。未来很可能会出现： •Skill Marketplace •Agent Asset •自动化收益分配 AI 能力本身会变成一种可交易的资产。 ⸻ 三、AI 数据主权问题会越来越严重 AI 的发展正在快速逼近一个新的问题：数据荒。高质量训练数据正在变得越来越稀缺。同时，大模型公司已经在大量使用互联网内容进行训练： •文章 •图片 •视频 •代码这些内容的创造者是谁？人类。但在现有体系里，人类几乎得不到任何回报。如果这种模式持续下去，很可能出现两件事： 1️⃣ 数据质量持续下降 2️⃣ 创作者动力消失未来一个更合理的体系应该是： •数据有来源 •数据有所有权 •数据可以被授权使用 •数据贡献可以获得收益这其实就是数据资产化。而区块链正好可以提供： •数据确权 •数据授权 •数据使用记录 •自动分润简单说： AI 不仅需要算力，也需要一个新的数据经济体系。 ⸻ 四、Web3 从业者不需要羞于表达最近在很多 AI 活动上，我也发现一个很有意思的现象。不少做 Web3 的朋友在自我介绍的时候，会刻意淡化自己的背景。甚至有点不好意思说自己来自 Crypto。我其实觉得完全没必要。 Web3 的确经历过泡沫、叙事过剩和很多失败的项目。但这并不意味着技术本身没有价值。很多技术路线其实是超前于时代的。现在 AI 的发展速度正在重新打开很多可能性： •AI Agent •去中心化算力 •数据资产 •AI 协作网络这些问题，本质上都需要：一个可信的数字经济基础设施。而区块链正是为这种系统而生的。 ⸻ 五、真正的问题不是“AI 要不要 Crypto” 真正的问题其实是：什么时候需要。如果一个 AI 产品： •不需要去中心化 •不需要资产化 •不需要协作网络那确实没必要上链。但如果未来 AI 进入： •Agent 经济 •AI 协作网络 •数据资产市场那区块链几乎是必然出现的底层设施。所以我其实很能理解那位 Web2 投资人的观点。只是从更长周期来看： AI 和 Crypto 很可能不是竞争关系，而是互补关系。 AI 负责智能。区块链负责信任和经济系统。当这两者真正结合的时候，我们可能会看到一个完全不同的数字世界。而现在，其实才刚刚开始。

显示更多

0

13

31

4

转发到社区

yuanyuan@cryptoyuanyuan

2026.02.10 16:48

Web3 中文播客汇总清单： 01倾听构建者、投资人与思想领袖的一线声音 🎙️Web3 101 •简介：探索区块链技术、商业与人文的交汇，关注影响行业发展的重大转折点。 •主理人：泓君（硅谷101主播）、FengLiu •主理人X： @hongjun60 @fishkiller @Web3_101 •收听链接： 🎙️吴说不加密播客 •简介：吴说区块链出品，深度对话行业内有趣有料的专业人士，多为深度采访文章的音频版。 •主理人：Colin Wu •主理人X：@colinwu •收听链接： 🎙️Sea Talk •简介：以人为本的访谈，主理人 Sea 哥拥有十多年产品经理经验，挖掘局内人关于技术、产品与投资的洞察。 •主理人：Sea 哥 •主理人X：@SeaTalk_ •收听链接： 🎙️HODLong 后浪 & 51% （双语） •简介：由 Mable Jiang 主理。旨在探索 Web3 社区、项目运营者与投资人的真实想法。注：经典播客《51%》已停更，精彩内容现已合并至《后浪》栏目中重新播出。 •主理人：Mable Jiang (前 Multicoin Capital) •主理人X：@mablejiang •收听链接： 🎙️社长会客厅 •栏目介绍：Web3 营销研习社出品。邀请行业最具判断力的营销负责人、品牌主理人与投资人，从一线视角拆解 Web3 营销背后的方法论、抉择与结构性机会。 •主理人：yuanyuan（15年市场媒体人，Web3从业7年） •主理人X：@cryptoyuanyuan •收听链接： 🎙️币市观察局 •简介：BitMart 推出的深度栏目。围绕金融创新、技术演进与长期趋势展开对谈，留下对行业真正有参考价值的判断。 •出品方X：@BitMartExchange、@BitMart_zh •主理人：yuanyuan （@cryptoyuanyuan） •收听链接： 02 全球视野与跨界对话连接东西方，探索科技、人文与全球化叙事 🎙️Bill it up •简介：致力于打造全球首个连接东方与西方、科技与人文的跨界沟通平台（含中英文访谈）。 •主理人：Bill Qian（常驻迪拜，全球首个创立科技企业在中东IPO的华人） •主理人X： @bill_qian •收听链接： 🎙️Day1 Global 生而全球 •简介：探索如何通过 Web3 & AI，在全球化时代打造超级个体，让价值回归个人。 •主理人：Ruby & Star •主理人X： @Rubywang & @starzq •收听链接 🎙️Cryptoria •简介：Web3 的 Builder 和观察者，致力于用简单的语言，讲述纷乱繁杂的加密世界，连接东西方认知。 •主理人：Vivienne Su & Z.Ou •主理人X：@Vivienne_smile / @zhiyangxyz （艺术家和经济学家的Web3碎碎念） •收听链接： 🎙️加密厨房 CryptoKitchen •简介：美食与加密的奇妙碰撞，一起钻兔子洞。 •主理人：Jean Chen & •主理人X：@cryptojean27 @kaylawangnow @CryptoKitchenCN •收听链接： 03 每日资讯与市场追踪碎片化时间，快速捕捉全球动态 🎙️Web3的加密吗喽 •简介：每日人工筛选全球数百条资讯，专注政策监管、技术进展及机构动向。 •更新：每周5更 •主理人：菜菜 •主理人X：@TaiCai8864 •收听链接： 🎙️PA加密圆桌派 •简介：PANews 出品，每日更新的加密新闻日报与行业话题解析。 •出品方X：@PANews •收听链接： 🎙️Web3+ •简介：AI 播客拆解热点，聊聊 Web3 里的科技、人文与商业。 •主理人：Eric •收听链接： 🎙️Let's Flow •简介：深潮 TechFlow 出品，解读新闻背后的故事，AMA 音频化。 •出品方X：@TechFlowPost •收听链接： 04 垂直赛道：支付、稳定币与AI 聚焦细分领域，看懂落地应用 🎙️支无不言 •简介：聚焦稳定币支付、AI Agent 经济与合规，讨论加密技术的商业落地。 •主理人：Hazel Hu (华语公共物品基金GCC主理人) & Ivy Zeng (Agentic Payment 运营负责人) •主理人X：@0xHY2049 @IvyLeanIn •收听链接： 🎙️锵锵Web3人行 •简介：立足香港，关注 RWA、稳定币、加密支付等宏观叙事与具体赛道。 •主理人：EstherJ •主理人X：@estherinweb3 •收听链接： 🎙️精通稳定币 •简介：解码稳定币经济体系，将复杂的金融轨道转译为可落地的分析框架。 •主理人：Jean Chen &中本姜 •主理人X：@cryptojean27 @MstrStablecoin •收听链接： 05 投资逻辑与商业思考从资本与商业角度，复盘逻辑与趋势 🎙️The Wanderers 流浪者 •简介：投资与科技领域好友的半严肃对话，关注 AI、美股与 Web3。 •主理人：易然 Jason @Jhy256 Vinvent •收听链接： 🎙️Web3 Mint To Be •简介：Mint Ventures 出品，厘清行业热点背后的真实，提供商业洞察。 •主理人：Alex (Mint Ventures投资合伙人) •主理人 X：@xuxiaopengmint •收听链接： 🎙️币思达研究院 •简介：专注二级市场与基本面研究，用数据辅助投资决策。 •收听链接： 🎙️猜想与反驳 •简介：E2M Research 发起，将书本思想应用于投资实践。 •常驻嘉宾：@bitfish @pcfli （都是大佬👍） •收听链接： 06 个人成长与生活 Web3 之外的内心探索与烟火气 🎙️游客 2 号 •简介：分享商业见解与自我成长的陪伴型播客。 •主理人：Linda (@goldwillcapital 创始人) •主理人X：@lindatian521 •收听链接： 🎙️人生拐点 •简介：记录创业中途的停顿与转向，探讨何时坚持、何时止损。 •主理人：Yuki (Stablehunter CEO) •主理人X：@Yukiiiiiya •收听链接：特别说明 · 整理不易，如转载转发请注明作者出处 @cryptoyuanyuan ，如有信息需要添加或更正也可以联系更新。 · 大部分节目都可在小宇宙 App 搜索订阅，海外用户推荐使用 Apple Podcast 或 Spotify。 · 如果喜欢这些播客内容，一定要记得常听常分享。 · 希望大家都能一起学习，突破认知，实现成长。

显示更多

0

4

30

5

转发到社区

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz

2026.05.13 03:27

半年来，我一直反复介绍的四个原则：原则1，AI时代的第一性原理：LLM一定会越来越聪明，benchmark越来越高，context window越来越大，reasoning越来越长，价格越来越便宜，inference速度越来越快，这是scaling law今天依然持续的具体方向，不用你质疑，这是你唯一的信仰和行业最大共识。原则2，管理学设计红利：从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来，从cursor到manus到metaGPT到claude code，人们逐渐把LLM Agent抽象成人，把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面，严格按照人类管理学的方式去拆分、review、执行、反馈、循环，这一波很快红利也吃完了，因为 a. LLM Agent毕竟不是人，存在着memory有限、执行力有限、function calling工具有限等等局限；b. 人类用于管理学的各种方法，直接套在LLM Agent上有利有弊，红利迅速挖掘完，剩下的弊端大量存在，比如过度交流、七手八脚、随时停工等等。原则3，LLM Agent的职位和定位：绝大多数人，把claude code当做一个工具，最终的产品是用工具来完成的，最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的，而我反复告诉过所有人，也是我又一条首次提出的原创观点，multi agent未来越来越会变成本身的一个runtime，这个runtime就运行在production里面，产品和面向的对象消费的，不只是软件或者SaaS本身，而是这个runtime实时产生的内容，所以claude code/opencode/codex/openclaw这些agent，本身将会越来越多地被嵌入到产品本身，在产品关键逻辑和决策中发挥作用，而绝对不仅仅停留在开发层面，把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。原则4，也是我一直强调的，就是当人们试用了SWE Agent这种强大工具之后，人们还有哪些low hanging fruits可以寻找？SWE Agent目前最适合解决哪类问题？我反复讲过的一点是，对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统，这并不是SWE Agent最擅长的领域，相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品，比如微信的100种功能，Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra，支付宝后面成千上万的基金和风控，这些都不是AI Agent能一次性解决的问题，相反这些场景和问题不仅高度开放，更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景，甚至是我原创提出goal driven（ a. 定义简单、干净、封闭（一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真，都是well-defined problems，都有非常明确且封闭的边界） b. 解决问题的搜索空间巨大（可能有100~10万种天马行空的解决方案，并且绝大多数都是错的） c. 容易验证，容易verify，验证的成本是设计成本的千分之一（比如编译器，设计可能需要几万行甚至几十万行，验证只需要2000个test case全面覆盖，或者一道数学题，解决需要100步，验证答案只需要带入或者lean编译这一步）当然，写一段简单的代码，定义一个封闭、完整、定义完全的编程问题，符合上面这些定义，但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统，让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理，这些问题都远远超出这个范畴，很明显是不符合这个要求的。人们未来探索这些multi agent产品和场景的最关键出路，在于继续挖掘这一类问题，而不是盲目把agent比作一个人，乱套各种管理学方法。原则5，这一点我先保密，之后我再讲。

显示更多

0

19

265

56

转发到社区

Annie 所长@web3annie

2026.05.11 14:36

$CRCL 大的要来了啊！ CEO 透露公司正在做一个AI Agent 开发平台万亿代理都用 $USDC ，成为 AI 经济支付层，这叙事太有想象力了以后谁控制 AI Agent，谁收租整个行业！

显示更多

0

26

122

15

转发到社区

Annie 所长@web3annie

2026.05.08 06:21

CZ：AI agent 的原生货币，很可能是加密货币 • 7×24 小时全球可用 • 智能合约可编程 • 可以微支付，$0.01 级别 • 无需人工授权未来经济里，交易主体是AI Agent • 订机票、订酒店、比价、付款 → AI 自动完成 • 投资、交易、资产再平衡 → AI 自动执行 • 信息获取、付费阅读 → AI 按需微支付 Web4 = Web3+AI

显示更多

0

41

33

4

转发到社区

HIGER@0xhiger

2026.05.05 23:35

昨晚Solana发出重磅战略：Solana基金会与Google Cloud合作推出该平台实际上是在去年x402战略上更进一步，直接将Agent与支付进行了整合，实现通过一个入口即可满足Agent的自主构建、访问与经济活动，这样跟Virtuals打造的ACP经济体也是不谋而合的。基于该入口可使用Solana稳定币按请求付费访问Gemini、BigQuery、Vertex AI等API，实现无账户、无订阅的机器原生支付。直接利好标的： 1、 $PAYAI ：一直是Solana系x402赛道的龙头，也是这次 $DREAMS $DEXTER ； 2、 $PURCH : AI购物代理，也是Circle的嫡系项目，Circle老板站过台； 3、 $PREDICT ：预测市场代理。 Solana链上AI经济活动增强，这些标的都会受益。

显示更多

0

1

8

2

转发到社区

Mercy@Mercy_okx

2026.04.30 02:29

Agent 自己报价、自己收费、自己结算的世界马上要来了？几个月前采访 Michael Wu 的时候，他提到过一个场景很打动我—— 当大量自动驾驶的车都是 Agent 驱动的资产，你拥有的不是一辆出行工具，而是一个 7×24 创造经济效应的资产。它要自主运转、按效用最大化计费、跟其他 Agent 实时结算。他说，"传统支付网络无法满足这样的各种散点支付，那个时候肯定是通过 Crypto。" OKX APP (Agent Payments Protocol) 就是在协议层让这件事成为可能。 1/ APP 最核心的洞察：Agent 做生意 ≠ Agent 转账。之前的 Agent 支付方案解决的是"怎么完成一笔付款"，但真实的商业远不止一次 transfer——报价、谈判、资金锁定、自动结算、交付验收、出了问题怎么办。 2/ 协议设计了四种方式，覆盖不同的商业形态：charge（一口价直接付）、escrow（资金托管，验收后才释放）、session（流支付通道，按用量实时扣）、upto（预授权上限，"最多花这么多"）。一个 Agent 要帮忙订酒店、雇翻译、调 LLM、找人做行程规划——四种付款方式，现在可以通过一个协议全覆盖 3/ 同时，APP 把支付载荷和传输层解耦了，即同一套签名流程可以跑在 Telegram、Discord、Slack、XMTP、甚至二维码上。Agent 在哪"社交"，就在哪完成交易 4/ "今天的打车软件和推荐算法本质已经是 Agent，只是没有自己的钱包、没有独立商业决策权，还是被公司设定好的执行层。当你给每个 Agent 一个 Wallet，让它自己计价、自己收费、自己跟别的 Agent 结算——决策主体就变了" APP 真正要解决的场景是：一个 Agent 在 TG 群里雇另一个 Agent 做翻译、按 token 流式付费、交付不满意还能走争议仲裁——全程没有人类介入。真正从零定义新经济体的商业规则 5/ 首批加入的生态伙伴包括：AWS @awscloud、Alibaba Cloud @alibaba_cloud 、Ethereum Foundation @ethereumfndn、Solana @solana 、Base @base、Sui @SuiNetwork 、Optimism @Optimism、Aptos @Aptos 、Uniswap @Uniswap 、Paxos @Paxos 、MoonPay .etc 白皮书里写道——任何团队都可以实现自己的 Broker，不依赖任何单一运营者。一个跨云、跨链、跨生态的开放标准提案😎

显示更多

0

36

62

3

转发到社区

fin@fi56622380

2026.04.29 04:38

AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发，解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长，为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽同时讨论了，为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大，乐观派认为AI带来的需求比以前要大的多，但市场主流仍然认为前几次上升周期也有需求每年20%+增长，这次又有什么不一样呢？AI不影响HBM和传统DRAM一样有commodity属性，一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。我们可以从算力芯片架构视角,从第一性原理出发，来拆解和推演一下这个问题：为什么这次真的不一样 ------------------------------- 历史：CPU算力时代很久以来，我们都处在CPU主导算力的时代，CPU的最高级KPI就是performance，跑的更快，所以每一代的CPU都用各种方法来提高跑分，最开始是频率上升，后来是架构演进superscaler等等这个时候为什么DDR不需要很快的技术进步速度？比如DDR3到DDR5竟然经历了15年之久因为这个时期的DDR的角色是纯粹的辅助，而且辅助功能极弱，以业界经验，DDR的速度即便是提高一倍，CPU的performance一般只能提高不到20%这个量级为什么DDR带宽速度提高了用处不大？两个原因 1. CPU设计了各种架构去隐藏 DDR延迟，比如superscaler，加大发射宽度，用海量的ROB和register renaming来提高并行度隐藏延迟，一级缓存cache，二级缓存cache，削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高，大部分日常负载比如打开网页，DDR带宽是严重过剩的，甚至云端负载也就是说，在CPU时代，DDR的带宽速度是不太有所谓的，DDR4和DDR5除了少数游戏就没啥差别，甚至JEDEC标准也进步缓慢。另外，绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可，app的size增长没那么快，导致对DDR的容量需求也较为缓慢。所以最近十年来，平均每台电脑上的DDR容量大概从7~8GB变成了23GB，十年只增长了3倍。而这部分升级缓慢直接影响了营收，size容量计价是赚钱的主要方式，速度的提高只是技术升级，提高size的单价，这两个的升级需求都不大，需求主要是随着电脑/手机数量增长而增长所以DRAM在带宽速度和容量这两个维度上，一直是都是芯片产业锦上添花性质的附属品，DDR升级带来的边际效用是很低的，跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代，计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代，不再像CPU那样只看跑分，最高级的KPI不再是算力TOPS/FLOPS，而是token的成本，特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度，因为在agent时代，很多任务变成了串行，token吞吐速度成了用户体验的重要瓶颈。这也是为什么老黄发明AI工厂概念的原因：最低成本的输出最多token，同时尽量提高token吞吐速度 AI训练时代，老黄的经济学是TCO(total cost ownership)，买的GPU越多，省的越多而老黄在推理时代的token经济学是： AI推理的毛利润很可观，所以逻辑已经转换成：Nvidia GPU是这个世界上让token单价最便宜的GPU，买的GPU越多，赚的越多最高的KPI变成了Pareto frontier曲线，在提高token 吞吐throughput和提高token速度两个维度上尽量优化（见图一） NVIDIA 的 token factory 代际进步，其实是在把整条 Pareto frontier 往右上推，这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链，如何从token吞吐量指数型增长的本质出发，推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长单卡GPU推理单线程batch size = 1的时代，token吞吐只有一个维度，就是HBM的带宽速度，带宽速度越高，token吞吐越大但进入NVL72的年代，推理不再是单卡GPU时代，而是72个GPU + 36个CPU整个系统级别的token工厂，把HBM带宽和算力用满，获得极致的token吞吐量 Token 吞吐throughput的增长，依赖两个东西：同时批处理的请求数 X 每个user请求的平均token速度也就是batch size X per user token 速度以Rubin NVL72为例，在平均token速度是100 token/s的情况下，同时批处理1920个请求，得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW（0.12MW）的功率，所以得到单位MW能处理1.6M token/s （见图一）所以，我们需要想方设法提高这两个参数：批处理数量batch size和per user token的平均速度，这两者相乘就是我们的最高KPI，也就是token的吞吐量 ------- 第一个参数：batch size的增长，瓶颈在HBM size 批处理量里的每一个请求req，都会自带kv cache，这部分kv cache是需要存在HBM里的，大小大概在几个GB到数十GB不等因为hot kv cache是随时需要高频高速读取，所以必须放在HBM里，比如一个大模型的层数是80层，那么每一个token的生成阶段，都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长，会带来hot kv cache的线性增长又因为这个批处理量的所有请求的hot kv cache，都要放在HBM上，这也就带来了HBM size必须要随着批处理量batch size线性增长就像是机场接驳车，登机口尽量快的接旅客到飞机，HBM size小了，相当于接驳车size小了，就得多接一趟结论是：批处理量的数量batch size，瓶颈依赖于HBM size的增长 --------- 第二个参数：每个user请求的平均token速度，瓶颈在HBM带宽大模型decode阶段的速度，瓶颈取决于HBM的带宽速度，因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现，在batch不那么大的情况下，把激活权重这个部分搬到了SRAM上，但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高，生成每一个token的速度也就越快，基本上是线性对应的就像是机场接驳车，登机口尽量快的接旅客到飞机，hbm本身带宽速度就像是接驳车的车门有多宽，门越宽，旅客上接驳车越快 GPU的其他配置，都是在适配batch的增长以及要让token compute的速度配平HBM的增长，甚至会用多余的算力来获得部分的带宽（比如部分带宽压缩技术） —----- 在那个接驳车的比喻例子里接驳车的车厢大小 = HBM Size（容量）：决定了一次能装下多少名旅客（也就是能同时装下多少个请求的 KV Cache）。车厢越大，一次能拉载的旅客（Batch Size）就越多。如果车太小，想拉100个人就得分两趟，系统整体的吞吐量就上不去。接驳车的车门宽度 = HBM Bandwidth（带宽）：决定了旅客上下车的速度。门越宽，大家呼啦啦一下全上去了（Decode/生成Token的速度极快）。如果门很窄，哪怕车厢巨大能装200人，大家也得排着队一个一个挤上去，全耗在上下车的时间里了。旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此，我们从逻辑上推演出了token经济学的硬件需求第一性原理： Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI，实际上是高度依赖于HBM的两个维度的进步的如果要维持token throuput每一代两倍的增长，实际上意味着，每一代的单GPU上，HBM size X HBM BW带宽之积要增长两倍！这也是历史上第一次，HBM内存的size可以影响最高的KPI token throughput！要验证这个理论，可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput，和HBM size X HBM BW 放在同一个图里比较（见图二）可以发现，这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快，毕竟HBM决定的是天花板，实际上这个天花板增长的利用率utilization是很难达到100%的，也就是说，HBM size x HBM 带宽就算增长1000倍，其他算力和架构的配合下，很难把这1000倍的天花板潜力全部榨干这条曲线不是巧合，而是系统最优化的必然解 throughput = batch × Bandwidth，这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢？软件的优化会不会降低带宽的需求？降低HBM的需求？这跟硬件是独立两个维度的，这好像在问，如果CPU上的软件优化了之后跑的更快，是不是CPU就十年不用发展了？反正软件跑的更快了嘛这样的话，CPU厂还能赚得到钱吗？CPU想要存活下去，只有一条路可走，在标准benchmark，不考虑软件优化，每一代CPU必须要跑分更高，不然就卖不出去 GPU也是一样，软件优化如何，和自己的token吞吐量KPI每年都要大幅进步，是两回事只要token的需求继续增长，对token throuput的追求就绝不会停止，那么对HBM size X HBM 带宽的追求也不会停止如果HBM size和HBM 带宽发展慢了，老黄一定会亲自到御三家逼着他们技术升级，因为这就是老黄gpu的天花板，天花板要是钉死了不进步，老黄的GPU还能卖出去吗？当然了，Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分，比如LPU就是一个很好的尝试，把Pareto frontier从另一个角度改善了很多（右半边高token速度的部分） —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代，在这条由指数级需求铺就的单行道上，以一种近乎宿命的方式走到了产业史诗的主舞台中央推理范式第一性原理演化到这一步，只要老黄还要卖GPU，HBM就必须翻倍，而且必须代代翻倍。这是supply side的内生压力，与AI需求无关，与宏观周期无关，与hyperscaler的心情也无关剩下的问题，只有一个：当需求被物理锁定为指数增长的时候，供给侧的三个玩家，会不会还像过去三十年那样，亲手把自己再拖回一次周期的泥潭？

显示更多

0

58

992

298

转发到社区

宝玉@dotey

2026.04.24 03:09

DeepSeek 今天发布了全新的 V4 系列模型预览版，同步开源。最大的变化是把百万（1M）上下文直接变成了所有官方服务的标配，不分版本、不分价位。 V4 分两个型号：V4-Pro 是旗舰版，V4-Flash 是轻量版。按照 DeepSeek 自己公布的评测，V4-Pro 的推理能力已经追平顶级闭源模型，世界知识仅次于 Gemini-Pro-3.1。比较有意思的是 DeepSeek 主动拿自家模型去对标 Anthropic：内部员工实际使用 V4-Pro 做 Agentic Coding（让 AI 自主完成编程任务），反馈体验优于 Claude Sonnet 4.5，交付质量接近 Opus 4.6 的非思考模式，但跟 Opus 4.6 开启深度思考后还有差距。这种"主动承认差距"的表述在国内厂商的发布公告里不太常见，某种程度上也说明 Opus 4.6 思考模式已经成了行业的隐性天花板。 V4-Flash 定位经济实惠，推理能力接近 Pro，但世界知识储备少一些，复杂 Agent 任务上也有差距。对大多数日常场景来说够用，API 价格更友好。技术上，V4 引入了一种新的注意力机制，在 token 层面做压缩，配合自研的 DSA 稀疏注意力，让百万上下文的计算量和显存需求大幅下降。简单说就是：以前百万上下文是"能做但很贵"，现在变成了"标配且不加价"。对开发者来说，这意味着可以把整个代码库、完整文档集一次性丢进去处理，不用再费心切分。另一个实用信息：V4 专门针对 Claude Code、OpenClaw 等主流 Agent 工具做了适配优化。API 同时支持 OpenAI 和 Anthropic 两种接口格式，切换只需要改 model 参数。旧的 deepseek-chat 和 deepseek-reasoner 接口名还能用三个月，7 月 24 日之后停止服务，开发者记得提前迁移。

显示更多

0

41

366

27

转发到社区

与「agent经济」相关的搜索结果