fin (@fi56622380) — TopicDigg

2026.06.25 07:37

@XiaoZha62335239 有了ATM融资，capex占营收比例，上升到35%是没什么问题的，再涨就不是那么容易了，这个拐点在2027~2028年之后hyperscaler的营收增速会赶上来，那时第一层：hyperscaler营收增速20->30% 第二层：capex占营收比例35%->38%->40%，这个占比的增速10%，到28年之后可能停止增长

显示更多

fin@fi56622380

2026.05.05 17:55

@CatAccept @m0d8ye 我给一个简单的breakdown吧，不要bottom up，容易陷入迷雾 top down来看，增速在三层： hyperscaler营收每年~20%增速 capex占hyperscaler营收比例每年~20%增速，从25%到30%到35% capex内部HBM分配比例，26~28年每年20%增速，从30%到42% 这就是HBM额外高速增长的基础

显示更多

转发到社区

fin@fi56622380

2026.06.25 06:21

AI半导体终局推演2026(II) 当半导体结构性演进到AI推理主线，内存和存储成为了最大瓶颈，市场对内存和存储最大的怀疑就是： HBM/DRAM/SSD会不会摆脱传统周期性？依赖HBM指数增长的GPU架构路线进化路线，会不会停止？什么时候停止？长鑫扩产的影响有多大？会不会把这个市场重新带入周期泥潭？本篇尝试去建立一个框架来梳理这几个问题 —---------—--------- 万物皆周期，而内存的周期性又特别强，最大的来源在于扩产周期过长，无法快速扩产和需求短缺时期错配摆脱传统周期性几种可能的方式 1. 定制化：产品不可互换，产能不能随便转移，需要签长约。 2. 结构性的指数级需求增长：需求曲线本身很陡峭，而且供给一直追不上。 3. 技术迭代快速升级：每一代产品都快速淘汰上一代。满足任何一条，就能部分摆脱传统周期；满足两到三条，就能摆脱大部分传统周期根据这个框架， HBM在三条里，大概占了两条半 1. 定制化，需要签长约（较弱，算半条） HBM 确实有定制化和Nvidia codesign的成分，但并不是很强。真正定制的部分只在封装和 base die，上面那十几层 DRAM die 仍然是完全 JEDEC 标准化的。比如当 Samsung 的 HBM3E 在 NVIDIA 的 qualification 上没过、份额从大约 60% 一路跌到 20% 的时候，它并没有把这批产能砸在手里报废，而是转手就供给了 Google 的 TPU、AMD. 物理上，给 NVIDIA 的 HBM3E 和给 AMD 的 HBM3E，是同一个东西。所以产能仍然是部分可以自由转移的。 HBM4之后的定制化更多一些，包括在 base die 上集成定制逻辑和/或缓存。更复杂的方式是将 HBM4E 内存控制器和定制 die-to-die 接口直接放入逻辑 base die SemiAnalysis 提到 OpenAI、NVIDIA 和 AMD 各自都在做定制 HBM 的工作，但这指的是 base die 的定制，上面的 DRAM 层仍然是标准的。部分定制化的特性，HBM主要在封装上需要合作，这也导致了客户必须签长约，但产能也确实可以转移，所以HBM 能勉强算半条。 2. 结构性的指数需求增长（满足）最直观的原因，就是Nvidia token factory token throughput的硬件升级需求，导致了HBM带宽的升级换代极快，以及HBM size需求的指数增长这一条其实就是上一篇AI半导体终局推演2026(I)的结论： token throughput = HBM size × HBM 带宽，每一代翻倍。 HBM size per GPU大概每年增长40%以上这条需求曲线的陡峭程度，是DRAM供给端 14% 的 wafer 增长，乘以 9% 的 density 提升，很难追上的在硬件领域，因为attn阶段KV cahce的极高带宽和极高memory size的要求，也导致了HBM独特的地位。即便是HBM涨价三五倍，把钱花在HBM上带来的边际token throughput提升，仍然比花在其他地方要划算的多。其他几个Memory路线，SRAM，HBF，CXL，PIM，目前都无法在HBM的主力赛道kv cache/attention上正面竞争，起码未来5年甚至更长时间，不太可能找到替代路线 3. 技术迭代快速升级（满足） DDR3时代过了15年，仍然只是DDR5时代，而HBM的升级换代的速度基本上是两年一代，比传统DDR要快很多很多，而且近来还有加速的趋势，HBM size x HBM BW每一代翻倍，目前是完全符合这个规律的每两年一代HBM升级，NV GPU速度基本是指数型上升：2TB/s ->3.5TB/s->4.8TB/s ->8TB/s->22TB/s，而且HBM的速度和推理token throughput是完全线性正比的，上一代HBM的边际使用成本会不划算，大家都有动机去尽量用最新的产品，虽然更贵，但是带来的收益(token throughput)是更多的 Token factory时代的逻辑是，技术升级（HBM带宽）的越多，赚的越多这个速度差，造成了一个和 CPU 类似的局面：旧产品快速贬值，于是囤货的价值在变低，比如说，HBM3的价值贬值的非常快，今天基本上主流产品不会用了所以HBM 厂商的理性选择，从拼当前的产能去占市场（quantity competition），变成了在稳定性和HBM速度上拼技术，拼下一代在 NVIDIA 平台上的 qualification 份额（quality competition），从而避免了在传统周期的下行波段，大家都不愿减产掉市场份额的囚徒困境。 —--------------—-------------- HBM和传统DRAM比较，三个条件里满足了两个半，那么HBM能摆脱传统周期性吗？内存周期性的来源，主流叙事是，DRAM 有Commodity属性（无差异化 → 价格战 →库存可囤积），所以有周期性。而Commodity属性本身并不产生周期，它只是一个振幅放大器特别是DRAM领域里，曾经产生过囚徒困境，在下行周期三星曾经扩产抢市场份额，谁先减产谁吃亏，导致谁也不敢轻易减产，最后大家都亏损惨烈实际上周期性的主要结构性来源是供给周期太长，很容易和需求周期错位。建一座 fab 要 3 年，投资上百亿美元，一旦决策就不可逆，而需求增长会有不稳定性，每次出现新范式增长，比如云服务，移动互联网手机，疫情线上需求，会有爆发式增长，而过了两年增长会放缓，供给高于需求，降价过猛，就变成了亏钱周期万物皆周期，HBM这一条同样是无法避免，但只要token需求仍然是指数型增长，结构性的指数增长会减弱周期性，因为需求可预测度更好，而且一旦降价，客户就有增大HBM size的需求（从而增大token throughput），加上HBM有一点定制化要求导致都是长约，从而从周期性转化成成长周期性，而且这一轮周期会特别长周期性：上行周期赚的多，下行周期亏的多成长周期性：上行周期赚的多，下行周期赚的少另外，HBM/DRAM在这三条摆脱传统周期的条件的基础上，还有一条重要优势： 4. 因为DRAM密度增长scaling越来越慢，以及HBM升级换代导致DRAM堆叠倍数的增加，供给端的扩产难度持续增加 2000年附近，DRAM每片wafer上DRAM bit密度每年增长大概45%，也就是说，就算晶圆wafer数量不扩产，每年的供给端DRAM bit仍然可以增长45% 十年前，DRAM bit每年密度增长降到了20%，而现在，DRAM bit每年密度增长降到了9%。以前DRAM扩产甚至不怎么需要新建厂房就能得到每年20~30%的bit volume上升，现在DRAM要扩产，更多的是靠wafer数量的增长，也就是新建厂房和clean room。另外一个HBM快速扩产难度在于，HBM3e大概需要3倍的DRAM wafer晶圆，而HBM4由于堆叠密度的增加，大概需要4倍的DRAM wafer晶圆数量，相当于HBM bit相对于DRAM bit一直变得更难制造，单位DRAM wafer数量制造的HBM bit越来越少，相当于在通缩 ---------------------------------- HBM未来有一天，会不会从成长周期性，变回传统周期性？最重要的因素是结构性指数增长，那么 AI推理时代，这个依赖HBM指数增长的GPU架构路线进化路线，会不会停止？什么时候停止？ token throughput = HBM size × HBM 带宽，这个HBM指数增长的第一性原理里的HBM size的增长原因正是KV cache的增长。KVCache的特性以及Attention的特性,也是非常契合HBM的。甚至让HBM领先于其他的技术路线, 能够最大化地让KVCache和Attention 阶段的利用率。换言之，如果KV cache从架构上不存在了，那么HBM size指数增长逻辑也会受到挑战所以这个问题的本质其实是，这一轮以 Transformer 为代表的 attention 机制、以及由它衍生的 KV cache 机制，会不会消失？退潮之后会不会被取代？从历史规律来看：每一次AI模型架构革命，真正被保留下来的，是那些在数学上具有某种普适性的 primitive 操作举个例子：FFN（前馈网络，也就是模型里大量的 MLP 层）是 2012 年深度学习时代的产物，但它一路活到了今天的大语言模型里，并且仍然占据着模型相当大的参数量。它为什么能活下来？因为这也是一种universal approximation theorem（通用逼近定理）：任何足够宽的 MLP 都能逼近任意连续函数 Attention 大概率也是这样一个会被保留的 primitive。因为它解决的是一个同样基础的问题：序列sequence 中任意两个位置之间的 dynamic routing（动态路由），让一个序列里任意两个位置都能按需建立联系。这个能力一旦被验证有效，就很难被丢弃所以即便未来架构从纯 Transformer 向混合架构演进，或者向世界模型演进，但attention 层依然会存在，KV cache（或者它经过 latent compression 之后的等价物）依然需要，HBM依然会作为推理核心之一，这个依赖HBM指数增长的GPU KV cache架构路线进化路线，不会停止 —---------------—--------------- 那么DRAM呢？在未来有没有摆脱传统周期性的可能？ HBM摆脱周期性在市场上有一定共识，但DRAM摆脱周期性，市场目前基本没有共识还是回到刚才的框架，三个摆脱传统周期的条件里，DRAM是没有定制化的，所以就只能看技术迭代速度，最关键的还是要看，有没有结构性的指数增长，答案是有的在 AI token factory 这个概念里，结构性指数增长的确实主要是 HBM。但事情在 2025 年年底之后起了变化：随着 agentic CPU开始释放潜力，CPU 附带的那部分 DRAM 需求，正在成为 DRAM 新的结构性指数增长来源 —------ 这部分的增长逻辑分两层：第一层是CPU 服务器TAM的快速增长，第二层是每个服务器CPU core配备的DRAM用量的因为agentic flow快速增长服务器CPU TAM的快速增长的4个逻辑在4月的CPU专篇详细写过，简单的说： 1. AI 加速器集群里CPU和GPU配比从传统的1：4变成1：2，甚至可能往1：1迈进 2. Agentic flow里CPU处理的延迟占比很高，50~90%成为重要瓶颈，需要同步扩容 3. AI coding让SDE的效率大幅提升，代码量数量级增长，软件API调用指数级增长，直接转化为这部分CPU hours指数级上升 4. Sandbox为保障数据安全与隔离，如Analytical Agent 需为每个任务复制大量数据库和用户上下文，导致内存(DRAM)和CPU核心的严重浪费，而且这个浪费问题五年甚至更久无法解决。另外CPU hours 在技术上很难通过优化的方法来通缩这也就是为什么，上上个季度，AMD的财报说CPU TAM到2030年会到60B，两个月前，AMD/ARM把CPU TAM的2030年预测翻倍到120B，一个月前，Nvidia再次把CPU TAM的2030年预测翻倍到200B 而上个星期，Bernstein再次提升2030 CPU TAM指引到223B。在我看来，2031 CPU TAM未来上修到400B是没有太大悬念的事情，唯一的悬念是几个巨头会什么时候宣布上修这个指引再说说第二层，为什么每个服务器CPU core配备的DRAM用量在agentic时代快速增长？ 1. Agent 是带状态的长驻进程，不是无状态的请求-响应传统 web/SaaS 是 stateless 的：请求进来，分配内存，处理完内存立刻回收。而一个 Agent 任务可以跑一分钟到一个小时，这整段时间里，它的 message history、system prompt、工作记忆、长期记忆、工具结果 buffer 全部常驻 DRAM 和 CPU hours 一样，每个任务的内存足迹因为 stateful 和 sandbox 隔离(每个任务复制数据库和上下文)的要求，技术上很难压缩 2. 上下文窗口在指数级变长，每个会话的工作集随之膨胀，并发度 × 单会话memory footprint，乘数放大 context window 从 32K → 256K → 1M，reasoning / test-time compute 的序列长度爆炸，未来还会继续增大。每个活跃会话常驻的 messages 随 context 长度线性增长现在把两层乘起来。第一层，CPU server 的 TAM，朝 2030~2031 看大概是 5–7 倍的量级(60B → 120B → 200B → 223B，我认为还会到 400B) 第二层，每颗 CPU 的 DRAM 配比，大概 3–4 倍(4~8GB → 16~32 GB/core)，但这个增长可能大部分是一次性红利两个独立变量相乘，server 侧的 DRAM 需求是数量级的增长 2030年，即便按保守的300B CPU TAM，一个CPU core按$50来算，agent时代最保守按16GB/core，这算出来新增量最少都是96EB，而今年的DRAM总产量只有47EB，明年勉强60EB，这是非常惊人的增量虽然这个agentic CPU带来的DRAM指数级增长，在第二层很大程度上是一次性红利，但持续时间会持续很久很久，因为这个短缺的缺口实在是太大了 —-------- 回到文章开头那个框架。三个摆脱传统周期的条件里，第一条DRAM 定制化，基本可以忽略而第二条：一个结构性指数级、而且很难逆转的需求来源是成立的。commodity DRAM 现在也具备了部分摆脱传统周期性的资格。没有 HBM(两条半)那么彻底，但已经是实质性的变化第三条，技术迭代速度，DRAM的节奏也跟以前不一样了因为以前的DRAM技术迭代速度是严重依赖消费电子的，DDR的进步对于performance用处并不大，但可预见的未来里，碳基消费的传统DRAM，会远远小于硅基消费（CPU服务器）DRAM的用量以前DRAM的速度升级带来的边际效用是很低的，但现在因为CPU服务器对memory的需求增大，以及端侧AI对DDR速度的要求也增大，比如苹果为了跑本地大模型，LPDDR速度越来越快速度升级的边际效用高了不少，所以DDR6和LPDDR6的速度迭代需求比以前提升了太大了，这在图里也可以看到，LPDDR6/DDR6的迭代时间缩短了，而且速度斜率，重新开始抬头以前新一代DDR/LPDDR技术出来，大家的反应都很冷淡，等降价了才会用而现在LPDDR6出来，各家恨不得都在抢着能尽量早上就尽量早，因为速度的提升带来的performance提升是触手可及的 ------ 另外，DDR 的供给还要被 HBM 额外抽一道税。HBM 每年的扩产速度太快，导致每年都有一批原本可以做 commodity DDR 的 wafer 被拉去做 HBM，而 HBM 的转换比极低，HBM3E 大约要 3 片 DDR wafer 的产能才能做出等量的 bit，HBM4 是4 片。所以每年大约有 3% 到 5% 的 DDR bit 增长，是被这个 HBM bit tax直接吃掉的所以DRAM bit volume虽然未来每年能增长24%左右（14%来自wafer增长，9%来自每个wafer的DRAM密度增长），但算上HBM bit tax之后，传统的、非 HBM 的 commodity DDR，每年的 bit growth 大概只有 20%（约 10% 的 wafer 增长 × 约 9% 的 node density 提升） —--------------------- 中国长鑫扩产的影响有多大？如果不讲武德拼命扩产，会不会把这个市场重新带入周期泥潭？长鑫这几年的扩产速度还是很快的，2025年还是每个月20万晶圆，2026年北京晶圆厂及新增生产线的贡献就能到32~35万。正在建设中的上海工厂一期和二期，一期预计到2027年每月新增10万片晶圆产能，二期预计到2028年每月新增10万片晶圆产能，也就是说，2027年每个月42万晶圆，2028年能到每个月50万晶圆。但需要注意的是，长鑫的dram bit 密度大概只有御三家的一半左右，所以长鑫的每个月50万晶圆wafer能产出的dram bit volume只有其他家的一半，这里计算wafer per month的时候，就按等效一半来算把这个折扣打上之后，长鑫对整个DRAM行业的冲击还是小了很多，从2025年年底到2028年年底，长鑫对DRAM bit产能CAGR的影响大概只有1.5%，全行业的DRAM产能CAGR大概从12.7%升到14.2% DRAM月产能(kwspm) 2025E → 2028E CAGR Samsung 685K → 920K 10.3% SK Hynix 519K → 725K 11.8% Micron 340K → 560K 18.1% 非中国其他 150K → 218K 13.3% 中国(密度折半) 117K → 274K 32.8% ————————————————— 含中国总计 1811K → 2697K 14.2% 无中国总计 1694K → 2423K 12.7% 就算是长鑫未来还能保持增产速度，2030年对全行业等效产能每年DRAM bit volume增产CAGR的影响，大概也不到3%，从20% CAGR变成23% CAGR，仅此而已另外，长鑫被光刻机所限制，而DDR6 需要更高速率（14400 MT/s 起步）和更高密度,御三家做 DDR6 大概率会用 1c 或更先进节点（~12nm 以下），已经全面用 EUV。长鑫可能会在DDR6上速率受限，密度也只有一半。 —---------------- 即便是成长性周期，为什么DRAM的这轮超级周期会持续很长时间，起码五年看不到头？第一个原因是，刚才谈到的CPU服务器需求端的巨量增长带来的结构性DRAM需求指数增长，这里结合DRAM供给端的bit volume CAGR大概稳定20%增长，就可以很清晰的看到，DRAM未来几年的缺口为什么越来越大：非HBM的传统DRAM供给端大概是每年增长20%，而需求端，按2026年60B CPU TAM，每个CPU消耗DRAM平均8GB/core，每个core $30~35来算，需求是16EB 2030年按400B CPU TAM，每个CPU消耗DRAM平均16GB/core，每个core $80来算(CPU涨价超过一倍)，需求是80EB，这部分DRAM的增长CAGR大概是50%，远远超过目前的估算不同于HBM是直接和token throughput挂钩，从而和GPU赚钱效率直接挂钩，DRAM不够对于agent flow的影响主要是速度，比如说，8GB/core和16GB/core比起来，部分workload速度可能降低30%，部分低价值task实在要等等也能忍，结构性指数增长的动机很强，但需求不如GPU那么刚性 Semianalysis说今年的DRAM缺口式个位数百分数，明年是超过10%。从agent CPU数量激增导致的DRAM结构性来看，这个缺口每年都会继续加大，在2030年之前看不到降低的可能 —---- 另外一个DRAM能延续强势很久的逻辑是，因为DRAM涨价之后，被涨价消灭的那部分需求，不是真的消失了，只是延迟了，需求蓄水池太多了。所谓蓄水池，是指那些"内存一旦降价就会立刻被释放出来的潜在需求"。它们的存在，意味着即便供给阶段性跟上了，价格也很难崩，因为总有新的需求从蓄水池里涌出来接盘：内存换算力/速度是一个蓄水池：有大量本来需要靠额外内存来优化速度和算力的需求，在内存太贵时被压着，一旦内存降价就会被释放出来。比如 Nvidia的CPX prefill 加速，本来的设计初衷是用额外的低成本GDDR7，来做一个专门的prefill加速器，结果LPDDR/GDDR都太贵了，比涨价前的HBM还贵，这个方案的ROI就不划算了，但等到普通内存降价，这样类似CPX的优化方案就还会回来低价值task是一个蓄水池：内存涨价导致token价格居高不下时，高价值的 task 被优先保留，低价值的 task 被延后；内存一降价，这些被延迟的需求就回来了。端侧 AI 是一个蓄水池：AI PC 的内存配置可能从 24GB 一路涨到 128GB。苹果已经明确要求最新的端侧AI满血版需要从8GB升级到12GB内存常规消费电子、Agent PC、低端手机，因为内存涨价而减少的需求，全都是蓄水池。这么多蓄水池叠在一起，构成了一个极厚的需求缓冲垫。这就是为什么 DDR 这轮的结构性增长，后劲会比市场想象的要强。 —----- 还有一个DRAM价格很难大幅下降的原因在于，HBM和DRAM产能可以互相转换，所以整个DRAM complex是一起re-rate的在上行期DRAM的利润率远超HBM，HBM的涨价幅度甚至变成了由DRAM去推动。今年新签约的HBM4的价格，就是当期DRAM的价格 x 4，也就是正常堆叠倍数对应HBM4的价格一旦DRAM降价毛利下滑，因为HBM的长约透明性，利润率都是有保障的，HBM就会间接抽走更多的DRAM产能，HBM的降价也会让GPU厂商更有动力尽可能的升级HBM size，这样也间接保障了DRAM的价格地板 DRAM的结构性指数增长的需求有了，density scaling放缓扩产难度在增加，厂商扩产计划都很谨慎，长鑫这几年带来的影响也是有限的，再加上需求的蓄水池非常庞大，这四个原因导致了，在可预见的至少五年甚至更长时间内，DRAM是很难进入周期低谷的。 —-------------- NAND SSD有希望摆脱传统周期性吗？ NAND 的结构性增长动力没有 DDR 那么强，今年的缺货主要原因是几个主要玩家的生产纪律保持的很好，并没有大规模扩产，每年的产能增加主要来源于技术改进：NAND堆叠层数的增加第一个结构性增长来自AI，主要来自 KV cache 的 offloading，把HBM溢出的warm/cold KV cache 卸载到 NAND SSD上。但神奇的事情是，这个kv cache offloading的增长甚至还没有大规模发生，SSD就已经缺的比DRAM还严重了，涨价也比DRAM要更多。等到明年Rubin CMX放量，加上KV cache offloading大规模应用，SSD的缺货也会因为这个结构性增长而增长第二个，另一个去年年度总结里说到的未来可期的AI视频带来的结构性增量，今年已经有出圈的态势了 Seedance体量在以一年十倍到四十倍的速度增长。目前它还卡在缺卡算力不足的阶段，需求被算力压着没完全释放。但等到缺卡阶段过去，AI 视频对NAND存储的结构性需求增长，会持续相当长的一段时间。第三个结构性增长也同样来自于agent flow带来的Sandbox使用量的指数级增长，Sandbox为保障数据安全与隔离，如Analytical Agent 需为每个任务复制大量数据库和用户上下文，导致内存(DRAM)和CPU核心的严重浪费，同样会带来大量的SSD的浪费（需求）第四个也许在2030年之后发挥作用的结构性增长，来自于HBF路线需要用到SSD，在不少投行分析中被寄予厚望，但这个技术路线还有些遥远，主要角色定位只能作为存放大模型的weights，写一次权重然后做只读，而且必须要和GPU/HBM封装在一起（48TBps/96TBps），否则靠PCIE7/8速度太慢完全无法用，只能说未来可期，下一篇AI半导体终局推演2026(III)会有更详细的分析总之，NAND SSD的结构性增长没有HBM那么强，但是胜在便宜，价格到2027年也只有$0.8/GB，是同期DRAM的四十分之一，所以也算是多级缓存里的万金油属性，结构性增长来源太广泛了也就是说，不存在DRAM/HBM单独涨价繁荣，而SSD不涨价的情况，因为如果这样的情况发生，那么大家就会想办法用SSD去承载DRAM/HBM的部分功能，用更低的成本实现类似的效果。HBM、DRAM、NAND 不是三个独立故事，而是同一 AI memory hierarchy 在不同温度层的结构性增长结构性指数增长的需求有了，NAND SSD摆脱周期了吗？那么就要看NAND SSD厂家的生产纪律了，唯一可能不遵守生产纪律的，只有长存。毕竟这是一个囚徒困境，一旦有一家不讲武德拼命扩产，整个NAND产业要扩产的难度比DRAM简单的多。但最起码的，这一轮NAND同样是超级周期，几个结构性指数增长带来的需求，下行期推迟到2030年问题不大

显示更多

193

2.2K

638

转发到社区

fin@fi56622380

2026.06.05 05:24

以后这种dram配置削减消息可能会时不时发生，因为不削减，dram就是不够用的市场第一次听到砍配置，还是很敏感的，以后再多次听到这样的消息就脱敏了只要算完CPU 200B TAM所需要的DRAM总量，就能很清楚的发现，因为CPU需求暴涨，Nvidia年初原定的17GB/core的计划对DRAM产能增长压力太大了所以五月的时候，Nvidia就已经被迫做trade off了，如果坚持原来配置，那么Rubin出货速度一定会出问题，到了五月底供应链才爆料出来另外这个配置应该也是客户可以自选的，如果workload真的瓶颈了，客户自己加上去即可这不是涨价带来的demand destruction，而是产能不足带来的demand destruction Micron CEO很早就回答过这个问题了：“如果DRAM不够用，那么customer就得自己调整规划，想出办法如何适应更少的DRAM” 市场当时没听懂这意味着什么，从今天的反应来看，还是没听懂这句话再发生两次，可能就听懂了

显示更多

186

转发到社区

fin@fi56622380

2026.05.26 07:33

华为τ scaling定律营销策略，无非是more than moore的广义摩尔定律的另一种说法而已作为芯片架构师，我更感兴趣的，还是芯片密度提升，ppt上41%能耗提升和12.7%性能提升，到底是怎么实现的看完了论文，感觉华为这次创新，本质上是用设计复杂度高 + 高制造成本 + 超前散热，一定程度弥补了工艺差距 ----------------- 1. 华为芯片堆叠带来的等效密度提升，是虚假宣传还是真的，是不是工艺突破？有没有实打实的好处？等效密度提升的来源，是两片芯片用hybrid bonding技术绑在一起，投影面积理论上能减小一半，但第一代不是全芯片双层折叠，而是选择性折叠关键logic，所以只有大概53%的芯片面积实现了折叠(密度155->238)，等到后面几代折叠面积会逐渐增大，到2030年接近全折叠（密度155->292）这2026第一代等效密度从 2025 年 155 MTr/mm² 跳到 2026 年 238 MTr/mm²，时钟频率也提升了12.7%，功耗比提升41%，表面上看似乎和工艺突破没有什么区别，但有一点重要区别就是leakage power华为从头到尾没有提，只要工艺节点不变，gate leakage、junction leakage 不会因为 3D stacking 自动改善 2030年到2031年的等效密度突变，大概率是来自于2层堆叠到3层堆叠，正如2025到2026年的等效密度突变，时钟频率突变，来自单层到2层折叠所以从leakage没提这个事来看，这个2031年等效1.4nm，和工艺节点上的突破没有联系。本质上是用设计复杂度高 + 高成本 + 超前散热 + 超前部署advanced packaging，一定程度弥补了工艺差距 ----------- 那么这样看起来虚假的等效密度提升，有用处吗？好处在哪里？有的，设计上topology折叠，原来要跑几毫米的水平走线，折叠后变成了几十微米。降低了super buffer/bus的长度，降低了clock tree的深度（clock depth -42%、clock wire -28%），clock skew也带来了改良(-25%)，这对动态功耗的改善是实实在在的。部分critical path的缩短，也让时钟频率的上升更容易所以ppt roadmap上performance的提升，从2025年到2026年上升了12.7%，大部分都是来自于时钟频率的上升（12.7%）所以好处基本上是topology拆分电路逻辑设计上带来的提升既然没有实质上的工艺提升，华为芯片堆叠带来等效密度提升的trade off代价在哪里？三个代价：散热超前发展，设计复杂度高，制造成本变高最大的代价就是热密度的同步上升，理论上logic on logic都是CPU execution发热最严重的区域，这部分折叠起来相当于功耗密度直接翻倍，但算上41% power efficiency改善，功耗密度仍只比非堆叠方案高40%左右。所以第一代只能对最关键的部分做折叠，大概只占全芯片面积的53%。所以散热技术也被逼的超前发展，直接上毫米级的MEMS风扇，做micro-cooling fan。另外的代价就是设计复杂度的变高，critical path的折叠，哪个部分的logic能折叠，折叠之后又会带来从前端到后端的巨大变化要推翻重来现有的所有EDA工具也不可能支持3D topology，论文自己也承认，full-scale LogicFolding需要全新的3D-native EDA toolchain，把多层stacked dies当作单一连续设计实体处理。哪些logic能折叠、折叠后的inter-die timing closure怎么做，Physical Design（PD）也是难点制造成本也会更高，被迫超前部署advanced packaging封装，1.5~2um的hybrid bonding + logic on logic都是很有挑战需要显著更高的成本以前一层wafer做一次光刻；现在两层wafer分别做光刻再bonding，加上hybrid bonding的overlay控制（论文要求<0.5μm）、TSV、KOZ keep-out zone、冗余修复、良率乘法损失，每颗芯片的制造成本和测试成本都要显著上升 -------------------------- 2. Tau scaling这个说法，scaling的到底是什么，这个scaling技术路线是不是一次性的design topology红利？潜力如何？持续进步的空间在哪里？ τ Scaling的核心主张是：用时间常数τ替代几何线宽作为全栈优化目标，在器件、电路、芯片、系统四个层级分别压缩特征延迟公式本身没有任何新物理。"关注瓶颈延迟"是所有架构师都在做的事情。整个行业都知道互联RC是延迟瓶颈，TSMC每一代工艺都在用low-k dielectrics/semi-damascene等手段降RC。把一个众所周知的优化方向包装成"定律"是显然的营销宣传手段，本质是More than Moore的广义摩尔定律的另一种说法抛开marketing，华为目前所谓RC delay的改善，本质上是芯片堆叠之后，topology距离缩短，让匹配的effective RC都变小，不是RC工艺常数至于scaling的意思，是能持续发展的一条roadmap。这里的持续改善路径指的是，全芯片堆叠的层数越来越多，从25~30年的2层堆叠，到31年开始的3层堆叠，以后甚至会考虑4层堆叠第一代折叠技术甚至不是全芯片双层折叠，而是选择性折叠关键logic，所以只有大概53%的芯片面积实现了折叠(密度155->238)，等到后面几代折叠面积会逐渐增大，到2030年接近全折叠（密度155->292）。2031年的roadmap之所以会出现一个阶跃，就是因为那是从2层折叠到3层折叠的时间点。但需要注意的是，这个scaling方法的边际效应是逐渐缩小的，折叠成双层的收益是100%，2->3层的收益就只有50%，如果2035年再从3->4层堆叠，收益就只有33%了另外随着堆叠层数变高，上面说到的三个挑战，散热，设计复杂度，成本，都是越来越大 --------------------- 3. 华为的芯片堆叠，是不是TSMC/AMD已经有的hybrid bonding技术？华为做到的是cache on logic，cache on cache，还是logic on logic，logic on logic最大的散热问题是怎么解决的？是已经有的技术没错，但同时也是把现有技术指标做到了领先也是真的，3D堆叠本身不是新技术，TSMC的hybrid bonding量产还是6um，华为论文给出Kirin 2026的hybrid bonding pitch是1.5μm 我在刚刚看到华为的堆叠消息之后，第一反应也是怀疑和AMD的3D V cache类似，它主要把 SRAM cache 叠在已经有的L3 cache 区域上，通常会避免直接堆在最热的 CPU execution logic 上，就是避免散热问题，毕竟SRAM 的功耗密度和热点特性与high-activity logic 不一样，如果最热的logic on logic堆叠，散热恐怕会碰到困难但看了更多数据之后，clock buffer -56%、clock depth -42%、clock wire -28%，这些只有在core内部的clock distribution被重构时才可能发生。纯SRAM stacking不会碰core内部的clock tree。另外如果只是cache on cache，大概率是不需要单独MEMS微型风扇额外散热的，证据普遍都指向logic on logic方式华为这个技术的精妙之处在于，logic on logic 折叠之后热密度并没有翻倍，而是因为topology的好处，能耗下降了30%，这样热密度只上升了40~50% 而第一代没有完全把整个最热的execution logic 100%堆叠起来，论文也明确说selectively applied along key critical paths，只是大概53%有选择性关键路径会堆叠起来，可能颗粒度都没有那么好，只是IP堆叠在IP上，那么热密度上升也许能维持在20%以内但这条道路继续前行，超前发展的散热就成了必然，现在是MEMS微型毫米级的主动散热风扇，紧贴处理器传导效率高，和华为手机一样，散热堆料特别足，而且技术领先同行。以后怕是要把HBM7/8的微流道散热技术提前用起来了，毕竟HBM7/8要上24+层堆叠，华为很可能要在提前用上下个世代的散热技术了 ------------------------- 4. 从架构角度来说，最重要的问题，华为41%的power efficiency（能耗比）提升，到底是怎么实现的？为什么AMD的3D V cache没有这么大的提升？首先确定41%的定义。论文只说"SoC performance-core power efficiency improved by 41%"，没有给出benchmark名称、Voltage/Freq点、温度条件、功耗边界。但PPT roadmap上有一个关键线索：ISO-Power Performance的数字，2025年是2.75，2026年是3.1，提升12.7% 这个时钟频率提升12.7%完全一致，可以理解为，同功耗的性能提升是12.7%，绝大部分是时钟频率提升带来的至于能耗比上优化的猜测是，LogicFolding缩短critical path → 在固定Vdd下Fmax从2.75GHz提升到3.1GHz → 这意味着在原来的2.75GHz频率下，有了约12.7%的timing headroom → 这个空间在iso-performance模式下可以换成更低的Vdd 另外的能耗比的提升，可能也来自于电路折叠之后，cache hit latency的下降。从业界经验来看，一般L2/L3 cache hit latency下降10%，CPU整体性能会有至少5%的提升 ppt里显示SRAM latency下降30%，估计会有一部分转化为cache hit latency的下降 AMD的3D V cache没有这么大的提升，主要是因为AMD的底层logic die并没有重新设计，3D cache的延迟latency不仅没有减小反而加大，只是增加了cache大小，收益不如latency下降那么明显。另一方面，clock skew的下降,critical路径变短，造成电路timing变好，意味着华为可以使用更低的vdd（猜测甚至能低7~8%），以及路径缩短所带来的RC的下降(考虑到clock buffer -56%、wire -28%、SRAM pJ/bit -24%这些数字，比如C_eff下降10~15%合理)，再加上clock tree的整体缩短和下降，确实是有可能在部分Voltage/Freq点做到同性能下，做到30%的功耗下降的，而30%的功耗下降换算过来就是41%的power efficiency 对比苹果和高通，每一代手机芯片在iso-power下单核性能一般提升10-20%，iso-performance下功耗一般降30-40%，这是V/F曲线的特性决定的，所以从经验上来说，数字是对的上的。所以这个power efficiency（能耗比）的提升，从现有的数字上来说可以从topology推导出来是合理的，可能真的和工艺节点没有太大关系 ---------------------------- 5. 这个技术路线有没有可复制性，其他家会不会效仿？短期内不会大规模效仿，因为性价比和风险收益比来说不好。长期来看，这个方向所有人都在走，只是名字不一样华为做LogicFolding的根本驱动力是制裁，工艺节点被卡在7nm，只能在封装，散热，和设计层面想办法弥补。华为也为此付出了不小的代价：散热成本，设计复杂度，以及制造成本更高（包括良率）。这是一个被逼出来的路线，不是一个自然选择其他玩家在用TSMC就能做到正常的经济迭代，是没有必要冒着这个风险，去超前迭代散热技术和设计复杂度的长期来看，Intel的Foveros、TSMC的SoIC、AMD的MI300的3D stacking都在朝同一个方向走。如果继续追最先进节点的经济性持续恶化，那么"固定一个成熟节点+3D topology optimization"的路线会越来越有吸引力散热方面，MEMS微型风扇和微流道也会成为未来HBM散热的主流 ------------------- 总结一下，华为这次的创新，绝对是值得尊重的，在制裁环境下，用极高的设计复杂度和成本，在一个被锁定的工艺节点上大胆重新设计，榨出了一次大的topology红利，虽然它有天花板。每多加一层的边际收益递减（堆叠1->2层, 2->3层, 3->4层，提升百分比变小），leakage无法解决，散热越来越难，3D EDA工具链更是全新的挑战。但这个Tau scaling不是一条可以走十年的指数增长路径，每次爬完一个台阶，下一个台阶更难爬，而且台阶更矮收益更小，华为以后想缩小差距，还得再想想靠什么其他的路线

显示更多

175

1.8K

486

转发到社区

fin@fi56622380

2026.05.05 17:55

显示更多

转发到社区

fin@fi56622380

2026.04.29 04:38

AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发，解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长，为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽同时讨论了，为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大，乐观派认为AI带来的需求比以前要大的多，但市场主流仍然认为前几次上升周期也有需求每年20%+增长，这次又有什么不一样呢？AI不影响HBM和传统DRAM一样有commodity属性，一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。我们可以从算力芯片架构视角,从第一性原理出发，来拆解和推演一下这个问题：为什么这次真的不一样 ------------------------------- 历史：CPU算力时代很久以来，我们都处在CPU主导算力的时代，CPU的最高级KPI就是performance，跑的更快，所以每一代的CPU都用各种方法来提高跑分，最开始是频率上升，后来是架构演进superscaler等等这个时候为什么DDR不需要很快的技术进步速度？比如DDR3到DDR5竟然经历了15年之久因为这个时期的DDR的角色是纯粹的辅助，而且辅助功能极弱，以业界经验，DDR的速度即便是提高一倍，CPU的performance一般只能提高不到20%这个量级为什么DDR带宽速度提高了用处不大？两个原因 1. CPU设计了各种架构去隐藏 DDR延迟，比如superscaler，加大发射宽度，用海量的ROB和register renaming来提高并行度隐藏延迟，一级缓存cache，二级缓存cache，削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高，大部分日常负载比如打开网页，DDR带宽是严重过剩的，甚至云端负载也就是说，在CPU时代，DDR的带宽速度是不太有所谓的，DDR4和DDR5除了少数游戏就没啥差别，甚至JEDEC标准也进步缓慢。另外，绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可，app的size增长没那么快，导致对DDR的容量需求也较为缓慢。所以最近十年来，平均每台电脑上的DDR容量大概从7~8GB变成了23GB，十年只增长了3倍。而这部分升级缓慢直接影响了营收，size容量计价是赚钱的主要方式，速度的提高只是技术升级，提高size的单价，这两个的升级需求都不大，需求主要是随着电脑/手机数量增长而增长所以DRAM在带宽速度和容量这两个维度上，一直是都是芯片产业锦上添花性质的附属品，DDR升级带来的边际效用是很低的，跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代，计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代，不再像CPU那样只看跑分，最高级的KPI不再是算力TOPS/FLOPS，而是token的成本，特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度，因为在agent时代，很多任务变成了串行，token吞吐速度成了用户体验的重要瓶颈。这也是为什么老黄发明AI工厂概念的原因：最低成本的输出最多token，同时尽量提高token吞吐速度 AI训练时代，老黄的经济学是TCO(total cost ownership)，买的GPU越多，省的越多而老黄在推理时代的token经济学是： AI推理的毛利润很可观，所以逻辑已经转换成：Nvidia GPU是这个世界上让token单价最便宜的GPU，买的GPU越多，赚的越多最高的KPI变成了Pareto frontier曲线，在提高token 吞吐throughput和提高token速度两个维度上尽量优化（见图一） NVIDIA 的 token factory 代际进步，其实是在把整条 Pareto frontier 往右上推，这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链，如何从token吞吐量指数型增长的本质出发，推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长单卡GPU推理单线程batch size = 1的时代，token吞吐只有一个维度，就是HBM的带宽速度，带宽速度越高，token吞吐越大但进入NVL72的年代，推理不再是单卡GPU时代，而是72个GPU + 36个CPU整个系统级别的token工厂，把HBM带宽和算力用满，获得极致的token吞吐量 Token 吞吐throughput的增长，依赖两个东西：同时批处理的请求数 X 每个user请求的平均token速度也就是batch size X per user token 速度以Rubin NVL72为例，在平均token速度是100 token/s的情况下，同时批处理1920个请求，得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW（0.12MW）的功率，所以得到单位MW能处理1.6M token/s （见图一）所以，我们需要想方设法提高这两个参数：批处理数量batch size和per user token的平均速度，这两者相乘就是我们的最高KPI，也就是token的吞吐量 ------- 第一个参数：batch size的增长，瓶颈在HBM size 批处理量里的每一个请求req，都会自带kv cache，这部分kv cache是需要存在HBM里的，大小大概在几个GB到数十GB不等因为hot kv cache是随时需要高频高速读取，所以必须放在HBM里，比如一个大模型的层数是80层，那么每一个token的生成阶段，都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长，会带来hot kv cache的线性增长又因为这个批处理量的所有请求的hot kv cache，都要放在HBM上，这也就带来了HBM size必须要随着批处理量batch size线性增长就像是机场接驳车，登机口尽量快的接旅客到飞机，HBM size小了，相当于接驳车size小了，就得多接一趟结论是：批处理量的数量batch size，瓶颈依赖于HBM size的增长 --------- 第二个参数：每个user请求的平均token速度，瓶颈在HBM带宽大模型decode阶段的速度，瓶颈取决于HBM的带宽速度，因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现，在batch不那么大的情况下，把激活权重这个部分搬到了SRAM上，但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高，生成每一个token的速度也就越快，基本上是线性对应的就像是机场接驳车，登机口尽量快的接旅客到飞机，hbm本身带宽速度就像是接驳车的车门有多宽，门越宽，旅客上接驳车越快 GPU的其他配置，都是在适配batch的增长以及要让token compute的速度配平HBM的增长，甚至会用多余的算力来获得部分的带宽（比如部分带宽压缩技术） —----- 在那个接驳车的比喻例子里接驳车的车厢大小 = HBM Size（容量）：决定了一次能装下多少名旅客（也就是能同时装下多少个请求的 KV Cache）。车厢越大，一次能拉载的旅客（Batch Size）就越多。如果车太小，想拉100个人就得分两趟，系统整体的吞吐量就上不去。接驳车的车门宽度 = HBM Bandwidth（带宽）：决定了旅客上下车的速度。门越宽，大家呼啦啦一下全上去了（Decode/生成Token的速度极快）。如果门很窄，哪怕车厢巨大能装200人，大家也得排着队一个一个挤上去，全耗在上下车的时间里了。旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此，我们从逻辑上推演出了token经济学的硬件需求第一性原理： Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI，实际上是高度依赖于HBM的两个维度的进步的如果要维持token throuput每一代两倍的增长，实际上意味着，每一代的单GPU上，HBM size X HBM BW带宽之积要增长两倍！这也是历史上第一次，HBM内存的size可以影响最高的KPI token throughput！要验证这个理论，可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput，和HBM size X HBM BW 放在同一个图里比较（见图二）可以发现，这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快，毕竟HBM决定的是天花板，实际上这个天花板增长的利用率utilization是很难达到100%的，也就是说，HBM size x HBM 带宽就算增长1000倍，其他算力和架构的配合下，很难把这1000倍的天花板潜力全部榨干这条曲线不是巧合，而是系统最优化的必然解 throughput = batch × Bandwidth，这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢？软件的优化会不会降低带宽的需求？降低HBM的需求？这跟硬件是独立两个维度的，这好像在问，如果CPU上的软件优化了之后跑的更快，是不是CPU就十年不用发展了？反正软件跑的更快了嘛这样的话，CPU厂还能赚得到钱吗？CPU想要存活下去，只有一条路可走，在标准benchmark，不考虑软件优化，每一代CPU必须要跑分更高，不然就卖不出去 GPU也是一样，软件优化如何，和自己的token吞吐量KPI每年都要大幅进步，是两回事只要token的需求继续增长，对token throuput的追求就绝不会停止，那么对HBM size X HBM 带宽的追求也不会停止如果HBM size和HBM 带宽发展慢了，老黄一定会亲自到御三家逼着他们技术升级，因为这就是老黄gpu的天花板，天花板要是钉死了不进步，老黄的GPU还能卖出去吗？当然了，Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分，比如LPU就是一个很好的尝试，把Pareto frontier从另一个角度改善了很多（右半边高token速度的部分） —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代，在这条由指数级需求铺就的单行道上，以一种近乎宿命的方式走到了产业史诗的主舞台中央推理范式第一性原理演化到这一步，只要老黄还要卖GPU，HBM就必须翻倍，而且必须代代翻倍。这是supply side的内生压力，与AI需求无关，与宏观周期无关，与hyperscaler的心情也无关剩下的问题，只有一个：当需求被物理锁定为指数增长的时候，供给侧的三个玩家，会不会还像过去三十年那样，亲手把自己再拖回一次周期的泥潭？

显示更多