注册并分享邀请链接,可获得视频播放与邀请奖励。

与「去Nvidia化」相关的搜索结果

去Nvidia化 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 去Nvidia化 的内容
$AVGO 是AI芯片的龙头。但历史告诉你,真正暴富的人买的是龙二 $MRVL 先说一个关于半导体行业的反直觉规律: 在一个严重缺货的市场里,获利最大的往往不是龙头,而是那个追赶中的龙二。(Herman老师分析intel观点我觉得说的很好,也同样非常适用于 $MRVL) 理由很简单: 当产能严重不足,买家再也无法只依赖龙头一家供应商。他们开始把订单给原本觉得"不够好"的替代者。而这个替代者,突然发现自己的产品以前没有人要,现在成了香饽饽——价格可以谈,条款可以谈,一切都变了。晶圆缺货时,原本没有人愿意把订单给Intel的客户,开始认真研究18A了。 那么,在AI定制芯片这个正在快速缺货的赛道里,获利最大的龙二会是谁? 我的答案是 $MRVL 。 1. 先理解结构 AI芯片市场分两层: 第一层:通用GPU Nvidia统治,没有任何人能挑战。H100、B200、Blackwell——超大规模云厂商需要它们,别无选择。 这层市场已经被充分定价了。Nvidia市值5.7万亿,没有人会漏掉这个机会。 第二层:定制ASIC(专用AI加速芯片) 这是一个完全不同的故事。 每一家超大规模云厂商都在开发自己的专用芯片: Google有TPU(张量处理器),Amazon有Trainium(AI训练)和Inferentia(推理),Meta有MTIA(AI推理加速),Microsoft有Maia(Azure AI加速)。 为什么要自己开发芯片? 因为通用GPU虽然强大,但它服务所有人,没有为特定工作负载优化。自研芯片可以针对自己的模型架构和推理需求精确设计,功耗更低,成本更低,效率更高。 这是一个不可逆的趋势——超大规模云厂商越大,自研芯片的动力越强。但有一个关键问题:这些云厂商需要设计合作伙伴。芯片设计是极其复杂的工程,需要有人懂SerDes,懂先进封装,懂chiplet集成,懂供应链——不是随便一家公司能做到的。 全球有能力承接超大规模云厂商定制ASIC设计的公司,只有两家: $Broadcom,和 $Marvell。 2. AVGO vs MRVL:龙头和龙二的真实差距 先看数字: Broadcom在ASIC市场占约55-60%的份额,与Google的TPU合作锁定到2031年,客户包括Meta、OpenAI等顶级厂商。Marvell约占15%的份额,排名第二Broadcom领先是事实,毫无争议。 但有几个数字值得认真对比: AVGO MRVL 市值 $2万亿 $1,470亿 ASIC市占 55-60% 15% FY26AI营收 $200亿+ $96亿 Forward PE 31倍 36倍 Broadcom在定制ASIC市场记录了约$200亿的AI总营收,而Marvell的AI相关营收约$96亿。 从市值角度:AVGO的市值是MRVL的13.6倍,但ASIC市场份额只是MRVL的4倍,AI营收只是MRVL的2倍。这个不对称,是MRVL存在的核心机会。 3. MRVL独特的地方:两场战争同时押注 这是我认为最关键的一点,也是MRVL和所有其他AI芯片公司最本质的区别。 MRVL同时押注了两个互相独立的万亿级叙事: 叙事一:定制ASIC——去Nvidia化的最大受益者 Marvell的数据中心部门FY2026增长46%,超过$60亿,管理层指引FY2027同比再增约40%。定制芯片年化营收已达$15亿规模,两个AI加速器项目处于高产量阶段,第三个超大规模客户合作正在进行。 Nasdaq 最重要的一个进展: 2026年4月,Google被报道正在与Marvell进行深度谈判,共同开发内存处理单元和下一代TPU,这正是Google此前几乎完全交由Broadcom负责的工作。如果谈判成功,Marvell将成为AI行业最具战略意义的芯片项目之一的核心设计伙伴。 这是什么意思? Broadcom和Google的TPU合作锁定到2031年——这是Broadcom的护城河,但不是MRVL的天花板。Google开始和MRVL谈,不是要取代Broadcom,而是要建立第二供应商。这正是"缺货时代,落后者获利"的经典逻辑。 当TPU的设计需求超过了Broadcom单独能服务的上限,Google开始把部分项目分给MRVL。 这一单谈成,MRVL同时拥有Amazon和Google双超大规模客户锚定——三个超大规模客户(Amazon、Microsoft、Google)大幅降低了单一客户集中的风险,给市场提供了更清晰的多年营收增长路线图。 叙事二:光互连DSP——AI集群神经系统的命门 MRVL是目前唯一同时覆盖定制ASIC设计、1.6T光学DSP、硅光子技术(通过Celestial AI收购)和CXL交换的全栈公司——这是任何单一竞争对手都无法复制的护城河。 光互连DSP是什么? 当GPU和GPU之间需要通信,数据需要在光纤里传输。但光纤里走的是模拟光信号,计算机需要的是数字信号。DSP(数字信号处理器)就是这两个世界之间的翻译器——它把数字数据编码成光信号发出去,再把收到的光信号解码成数字数据。 MRVL的PAM4 DSP是全球800G和1.6T光模块的核心芯片之一。光互连业务的需求与AI集群的互连基础设施同步扩张——每一个上线的AI集群都需要完整的互连协议栈,不需要等待GPU的供应情况。 这是最关键的逻辑: GPU供应有时候是稀缺的,但光互连不等GPU——只要数据中心在建,只要AI集群在运行,光互连就需要。 MRVL的DSP是一个和GPU并行运行的独立需求,不是GPU需求的影子。 4. 我自己的判断:为什么MRVL的故事比AVGO更有弹性 AVGO是龙头,MRVL是追赶者。 但在这个特定的历史时刻,追赶者的弹性更大,原因有三: 原因一:基数效应 AVGO已经是$2万亿市值,要翻倍需要成为$4万亿的公司。MRVL只有$1,470亿,翻倍只需要$2,940亿——和AVGO现在市值的15%相当。同样的资金流入,对MRVL股价的推动效果是AVGO的13倍以上。 原因二:Google的变量 AVGO和Google的合作是锁定的,这是护城河,但也意味着它的上行惊喜已经被充分定价。MRVL和Google的谈判还没有正式宣布——这是一个尚未被市场定价的潜在催化剂。如果Google正式宣布,MRVL立刻拥有Amazon+Google双超大规模客户,ASIC市场份额从15%向25%+跳升的路径被打开。 原因三:两个叙事不相关 AVGO的核心护城河是ASIC和VMware软件。 MRVL的两个叙事——ASIC和光互连DSP——是完全独立的业务。 ASIC受益于去Nvidia化,光互连受益于AI集群扩张。两个独立的增长引擎,互相不依赖,互相不替代。 MRVL在多个AI基础设施顺风中同时暴露:定制芯片、光互连、数据中心网络和更广泛的超大规模资本支出周期。这种在AI主题内的多元化暴露,使它成为纯粹的GPU标的(如Nvidia)的有吸引力的补充。 5. 估值合理吗? $MRVL:Forward PE 36.4倍,市值$1,470亿。 $AVGO:Forward PE 31倍,市值$2万亿。 $MRVL的Forward PE比 $AVGO略高,但增速也更快: $MRVL FY27营收预期:约$110亿,同比增速约40% $AVGO FY27增速约25-30%。PEG(PE/增速): $MRVL:36.4 ÷ 40 = 0.91, $AVGO:31 ÷ 27 = 1.15 PEG低于1都算便宜。 用PEG来衡量,MRVL比AVGO便宜约20%。 而且MRVL有Google催化剂这个尚未被定价的变量,AVGO没有。如果Marvell股价涨到$400,需要数据中心营收FY27超过$90亿,Google ASIC合同正式宣布,自定义硅年化营收达到$30亿。在这些条件下,ASIC业务40倍Forward EV/EBITDA,光互连业务20倍EV/Sales。 我觉得2027年是很有可能达到的,这还是在理性的估值下,如果是ai融涨疯牛选择忽略估值的话,如果NVDA到360分析师预测最高,也就是8.8T, 我预测8-10T,那么AVGO会到3-4T, MRVL到500B-1T都问题不大。 6. 三个需要追踪的关键变量 变量一:Google ASIC合同的正式宣布 这是目前MRVL最大的潜在催化剂。谈判已经在进行,但没有正式宣布。每过一个季度没有宣布,市场会稍微失去耐心。但一旦宣布,估值逻辑发生质变。 变量二:1.6T DSP的市场份额 Marvell已经开始出货1.6T PAM DSP,基于5纳米工艺,并推出了下一代3纳米版本,将光模块功耗降低超过20%。 800G向1.6T的迭代是MRVL DSP业务的下一个量子跳跃。如果MRVL能在1.6T时代维持甚至提升市场份额,光互连业务的营收会非线性增长。 变量三:Celestial AI的硅光子整合 MRVL收购了Celestial AI,进入硅光子领域。这是CPO时代最关键的技术平台——把光学引擎直接集成进芯片封装。如果MRVL能在CPO时代把DSP和硅光子整合成一个完整的解决方案,它的价值会远超现在的定价。 7. 最终判断:MRVL是这轮AI牛市里最干净的不对称机会 AI芯片市场分三类公司: 第一类:Nvidia——已经被充分定价的龙头。故事最好,估值最贵,上行惊喜空间有限。 第二类:纯ASIC公司(AVGO)——护城河深厚,但增速放缓在定价中。Google TPU锁定到2031年是确定性,也是上行惊喜的天花板。 第三类:MRVL——两个叙事都在爆发,Google催化剂未定价,市值基数小。 这是不对称机会的经典形态, 下行有Amazon锚定,有光互连稳定收入,不会归零,上行有Google合同宣布+CPO爆发+ASIC市场份额提升,估值可能从$1,470亿走向$5,000亿+。 $MRVL也是我重仓持有的标的之一,短期technical角度今天收长上影线,日线级别调整要来,加仓机会在第一目标165,第二目标140。如果给机会到140补那个缺口,我仓位加满(图1)。 总结:回到那个反直觉的规律:缺货时代,落后者获利最大。 ASIC市场正在缺货——Broadcom一家根本无法满足所有超大规模客户的定制需求。光互连正在缺货——AI集群每季度都在扩张,DSP的需求只增不减。MRVL是这两个缺货赛道里,那个正在被需要的追赶者。 历史一次次证明:当产能不足、供应商只有一两家的时候,第二名是最好的弹性高的投资标的(Nvidia和Amd,TSMC和Intel。) 因为所有人都开始认真研究它了。 #MRVL# #Marvell# #AVGO# #Broadcom# #ASIC# #定制芯片# #光互连# #DSP# #Google# #Amazon# #Nvidia# #AI芯片# #半导体# #美股# #龙二补涨# #CPO# #硅光子# #AI基建# #USStocks# #AIStocks# #数据中心# #去Nvidia化#
显示更多
0
30
432
87
转发到社区
AI半导体终局推演2026(II) 当半导体结构性演进到AI推理主线,内存和存储成为了最大瓶颈,市场对内存和存储最大的怀疑就是: HBM/DRAM/SSD会不会摆脱传统周期性? 依赖HBM指数增长的GPU架构路线进化路线,会不会停止?什么时候停止? 长鑫扩产的影响有多大?会不会把这个市场重新带入周期泥潭? 本篇尝试去建立一个框架来梳理这几个问题 —---------—--------- 万物皆周期,而内存的周期性又特别强,最大的来源在于扩产周期过长,无法快速扩产和需求短缺时期错配 摆脱传统周期性几种可能的方式 1. 定制化:产品不可互换,产能不能随便转移,需要签长约。 2. 结构性的指数级需求增长:需求曲线本身很陡峭,而且供给一直追不上。 3. 技术迭代快速升级:每一代产品都快速淘汰上一代。 满足任何一条,就能部分摆脱传统周期;满足两到三条,就能摆脱大部分传统周期 根据这个框架, HBM在三条里,大概占了两条半 1. 定制化,需要签长约(较弱,算半条) HBM 确实有定制化和Nvidia codesign的成分,但并不是很强。真正定制的部分只在封装和 base die,上面那十几层 DRAM die 仍然是完全 JEDEC 标准化的。 比如当 Samsung 的 HBM3E 在 NVIDIA 的 qualification 上没过、份额从大约 60% 一路跌到 20% 的时候,它并没有把这批产能砸在手里报废,而是转手就供给了 Google 的 TPU、AMD. 物理上,给 NVIDIA 的 HBM3E 和给 AMD 的 HBM3E,是同一个东西。 所以产能仍然是部分可以自由转移的。 HBM4之后的定制化更多一些,包括在 base die 上集成定制逻辑和/或缓存。更复杂的方式是将 HBM4E 内存控制器和定制 die-to-die 接口直接放入逻辑 base die SemiAnalysis 提到 OpenAI、NVIDIA 和 AMD 各自都在做定制 HBM 的工作,但这指的是 base die 的定制,上面的 DRAM 层仍然是标准的。 部分定制化的特性,HBM主要在封装上需要合作,这也导致了客户必须签长约,但产能也确实可以转移,所以HBM 能勉强算半条。 2. 结构性的指数需求增长(满足) 最直观的原因,就是Nvidia token factory token throughput的硬件升级需求,导致了HBM带宽的升级换代极快,以及HBM size需求的指数增长 这一条其实就是上一篇AI半导体终局推演2026(I)的结论: token throughput = HBM size × HBM 带宽,每一代翻倍。 HBM size per GPU大概每年增长40%以上 这条需求曲线的陡峭程度,是DRAM供给端 14% 的 wafer 增长,乘以 9% 的 density 提升,很难追上的 在硬件领域,因为attn阶段KV cahce的极高带宽和极高memory size的要求,也导致了HBM独特的地位。即便是HBM涨价三五倍,把钱花在HBM上带来的边际token throughput提升,仍然比花在其他地方要划算的多。 其他几个Memory路线,SRAM,HBF,CXL,PIM,目前都无法在HBM的主力赛道kv cache/attention上正面竞争,起码未来5年甚至更长时间,不太可能找到替代路线 3. 技术迭代快速升级(满足) DDR3时代过了15年,仍然只是DDR5时代,而HBM的升级换代的速度基本上是两年一代,比传统DDR要快很多很多,而且近来还有加速的趋势,HBM size x HBM BW每一代翻倍,目前是完全符合这个规律的 每两年一代HBM升级,NV GPU速度基本是指数型上升:2TB/s ->3.5TB/s->4.8TB/s ->8TB/s->22TB/s,而且HBM的速度和推理token throughput是完全线性正比的,上一代HBM的边际使用成本会不划算,大家都有动机去尽量用最新的产品,虽然更贵,但是带来的收益(token throughput)是更多的 Token factory时代的逻辑是,技术升级(HBM带宽)的越多,赚的越多 这个速度差,造成了一个和 CPU 类似的局面:旧产品快速贬值,于是囤货的价值在变低,比如说,HBM3的价值贬值的非常快,今天基本上主流产品不会用了 所以HBM 厂商的理性选择,从拼当前的产能去占市场(quantity competition),变成了在稳定性和HBM速度上拼技术,拼下一代在 NVIDIA 平台上的 qualification 份额(quality competition),从而避免了在传统周期的下行波段,大家都不愿减产掉市场份额的囚徒困境。 —--------------—-------------- HBM和传统DRAM比较,三个条件里满足了两个半,那么HBM能摆脱传统周期性吗? 内存周期性的来源,主流叙事是,DRAM 有Commodity属性(无差异化 → 价格战 →库存可囤积),所以有周期性。 而Commodity属性本身并不产生周期,它只是一个振幅放大器 特别是DRAM领域里,曾经产生过囚徒困境,在下行周期三星曾经扩产抢市场份额,谁先减产谁吃亏,导致谁也不敢轻易减产,最后大家都亏损惨烈 实际上周期性的主要结构性来源是供给周期太长,很容易和需求周期错位。建一座 fab 要 3 年,投资上百亿美元,一旦决策就不可逆,而需求增长会有不稳定性,每次出现新范式增长,比如云服务,移动互联网手机,疫情线上需求,会有爆发式增长,而过了两年增长会放缓,供给高于需求,降价过猛,就变成了亏钱周期 万物皆周期,HBM这一条同样是无法避免,但只要token需求仍然是指数型增长,结构性的指数增长会减弱周期性,因为需求可预测度更好,而且一旦降价,客户就有增大HBM size的需求(从而增大token throughput),加上HBM有一点定制化要求导致都是长约,从而从周期性转化成成长周期性,而且这一轮周期会特别长 周期性:上行周期赚的多,下行周期亏的多 成长周期性:上行周期赚的多,下行周期赚的少 另外,HBM/DRAM在这三条摆脱传统周期的条件的基础上,还有一条重要优势: 4. 因为DRAM密度增长scaling越来越慢,以及HBM升级换代导致DRAM堆叠倍数的增加,供给端的扩产难度持续增加 2000年附近,DRAM每片wafer上DRAM bit密度每年增长大概45%,也就是说,就算晶圆wafer数量不扩产,每年的供给端DRAM bit仍然可以增长45% 十年前,DRAM bit每年密度增长降到了20%,而现在,DRAM bit每年密度增长降到了9%。以前DRAM扩产甚至不怎么需要新建厂房就能得到每年20~30%的bit volume上升,现在DRAM要扩产,更多的是靠wafer数量的增长,也就是新建厂房和clean room。 另外一个HBM快速扩产难度在于,HBM3e大概需要3倍的DRAM wafer晶圆,而HBM4由于堆叠密度的增加,大概需要4倍的DRAM wafer晶圆数量,相当于HBM bit相对于DRAM bit一直变得更难制造,单位DRAM wafer数量制造的HBM bit越来越少,相当于在通缩 ---------------------------------- HBM未来有一天,会不会从成长周期性,变回传统周期性?最重要的因素是结构性指数增长,那么 AI推理时代,这个依赖HBM指数增长的GPU架构路线进化路线,会不会停止?什么时候停止? token throughput = HBM size × HBM 带宽,这个HBM指数增长的第一性原理里的HBM size的增长原因正是KV cache的增长。KVCache的特性以及Attention的特性,也是非常契合HBM的。甚至让HBM领先于其他的技术路线, 能够最大化地让KVCache和Attention 阶段的利用率。 换言之, 如果KV cache从架构上不存在了,那么HBM size指数增长逻辑也会受到挑战 所以这个问题的本质其实是,这一轮以 Transformer 为代表的 attention 机制、以及由它衍生的 KV cache 机制,会不会消失?退潮之后会不会被取代? 从历史规律来看:每一次AI模型架构革命,真正被保留下来的,是那些在数学上具有某种普适性的 primitive 操作 举个例子:FFN(前馈网络,也就是模型里大量的 MLP 层)是 2012 年深度学习时代的产物,但它一路活到了今天的大语言模型里,并且仍然占据着模型相当大的参数量。它为什么能活下来?因为这也是一种universal approximation theorem(通用逼近定理):任何足够宽的 MLP 都能逼近任意连续函数 Attention 大概率也是这样一个会被保留的 primitive。因为它解决的是一个同样 基础的问题:序列sequence 中任意两个位置之间的 dynamic routing(动态路由),让一个序列里任意两个位置都能按需建立联系。这个能力一旦被验证有效,就很难被丢弃 所以即便未来架构从纯 Transformer 向混合架构演进,或者向世界模型演进,但attention 层依然会存在,KV cache(或者它经过 latent compression 之后的等价物)依然需要,HBM依然会作为推理核心之一,这个依赖HBM指数增长的GPU KV cache架构路线进化路线,不会停止 —---------------—--------------- 那么DRAM呢?在未来有没有摆脱传统周期性的可能? HBM摆脱周期性在市场上有一定共识,但DRAM摆脱周期性,市场目前基本没有共识 还是回到刚才的框架,三个摆脱传统周期的条件里,DRAM是没有定制化的,所以就只能看技术迭代速度,最关键的还是要看,有没有结构性的指数增长,答案是有的 在 AI token factory 这个概念里,结构性指数增长的确实主要是 HBM。但事情在 2025 年年底之后起了变化:随着 agentic CPU开始释放潜力,CPU 附带的那部分 DRAM 需求,正在成为 DRAM 新的结构性指数增长来源 —------ 这部分的增长逻辑分两层:第一层是CPU 服务器TAM的快速增长,第二层是每个服务器CPU core配备的DRAM用量的因为agentic flow快速增长 服务器CPU TAM的快速增长的4个逻辑在4月的CPU专篇详细写过,简单的说: 1. AI 加速器集群里CPU和GPU配比从传统的1:4变成1:2,甚至可能往1:1迈进 2. Agentic flow里CPU处理的延迟占比很高,50~90%成为重要瓶颈,需要同步扩容 3. AI coding让SDE的效率大幅提升,代码量数量级增长,软件API调用指数级增长,直接转化为这部分CPU hours指数级上升 4. Sandbox为保障数据安全与隔离,如Analytical Agent 需为每个任务复制大量数据库和用户上下文,导致内存(DRAM)和CPU核心的严重浪费,而且这个浪费问题五年甚至更久无法解决。另外CPU hours 在技术上很难通过优化的方法来通缩 这也就是为什么,上上个季度,AMD的财报说CPU TAM到2030年会到60B,两个月前,AMD/ARM把CPU TAM的2030年预测翻倍到120B,一个月前,Nvidia再次把CPU TAM的2030年预测翻倍到200B 而上个星期,Bernstein再次提升2030 CPU TAM指引到223B。在我看来,2031 CPU TAM未来上修到400B是没有太大悬念的事情,唯一的悬念是几个巨头会什么时候宣布上修这个指引 再说说第二层,为什么每个服务器CPU core配备的DRAM用量在agentic时代快速增长? 1. Agent 是带状态的长驻进程,不是无状态的请求-响应 传统 web/SaaS 是 stateless 的:请求进来,分配内存,处理完内存立刻回收。而一个 Agent 任务可以跑 一分钟到一个小时,这整段时间里,它的 message history、system prompt、工作记忆、长期记忆、工具结果 buffer 全部常驻 DRAM 和 CPU hours 一样,每个任务的内存足迹因为 stateful 和 sandbox 隔离(每个任务复制数据库和上下文)的要求,技术上很难压缩 2. 上下文窗口在指数级变长,每个会话的工作集随之膨胀,并发度 × 单会话memory footprint,乘数放大 context window 从 32K → 256K → 1M,reasoning / test-time compute 的序列长度爆炸,未来还会继续增大。每个活跃会话常驻的 messages 随 context 长度线性增长 现在把两层乘起来。 第一层,CPU server 的 TAM,朝 2030~2031 看大概是 5–7 倍的量级(60B → 120B → 200B → 223B,我认为还会到 400B) 第二层,每颗 CPU 的 DRAM 配比,大概 3–4 倍(4~8GB → 16~32 GB/core),但这个增长可能大部分是一次性红利 两个独立变量相乘,server 侧的 DRAM 需求是数量级的增长 2030年,即便按保守的300B CPU TAM,一个CPU core按$50来算,agent时代最保守按16GB/core,这算出来新增量最少都是96EB,而今年的DRAM总产量只有47EB,明年勉强60EB,这是非常惊人的增量 虽然这个agentic CPU带来的DRAM指数级增长,在第二层很大程度上是一次性红利,但持续时间会持续很久很久,因为这个短缺的缺口实在是太大了 —-------- 回到文章开头那个框架。三个摆脱传统周期的条件里,第一条DRAM 定制化,基本可以忽略 而第二条:一个结构性指数级、而且很难逆转的需求来源是成立的。commodity DRAM 现在也具备了部分摆脱传统周期性的资格。没有 HBM(两条半)那么彻底,但已经是实质性的变化 第三条,技术迭代速度,DRAM的节奏也跟以前不一样了 因为以前的DRAM技术迭代速度是严重依赖消费电子的,DDR的进步对于performance用处并不大,但可预见的未来里,碳基消费的传统DRAM,会远远小于硅基消费(CPU服务器)DRAM的用量 以前DRAM的速度升级带来的边际效用是很低的,但现在因为CPU服务器对memory的需求增大,以及端侧AI对DDR速度的要求也增大,比如苹果为了跑本地大模型,LPDDR速度越来越快 速度升级的边际效用高了不少,所以DDR6和LPDDR6的速度迭代需求比以前提升了太大了,这在图里也可以看到,LPDDR6/DDR6的迭代时间缩短了,而且速度斜率,重新开始抬头 以前新一代DDR/LPDDR技术出来,大家的反应都很冷淡,等降价了才会用 而现在LPDDR6出来,各家恨不得都在抢着能尽量早上就尽量早,因为速度的提升带来的performance提升是触手可及的 ------ 另外,DDR 的供给还要被 HBM 额外抽一道税。HBM 每年的扩产速度太快,导致每年都有一批原本可以做 commodity DDR 的 wafer 被拉去做 HBM,而 HBM 的转换比极低,HBM3E 大约要 3 片 DDR wafer 的产能才能做出等量的 bit,HBM4 是4 片。所以每年大约有 3% 到 5% 的 DDR bit 增长,是被这个 HBM bit tax直接吃掉的 所以DRAM bit volume虽然未来每年能增长24%左右(14%来自wafer增长,9%来自每个wafer的DRAM密度增长),但算上HBM bit tax之后,传统的、非 HBM 的 commodity DDR,每年的 bit growth 大概只有 20%(约 10% 的 wafer 增长 × 约 9% 的 node density 提升) —--------------------- 中国长鑫扩产的影响有多大?如果不讲武德拼命扩产,会不会把这个市场重新带入周期泥潭? 长鑫这几年的扩产速度还是很快的,2025年还是每个月20万晶圆,2026年北京晶圆厂及新增生产线的贡献就能到32~35万。 正在建设中的上海工厂一期和二期,一期预计到2027年每月新增10万片晶圆产能,二期预计到2028年每月新增10万片晶圆产能,也就是说,2027年每个月42万晶圆,2028年能到每个月50万晶圆。 但需要注意的是,长鑫的dram bit 密度大概只有御三家的一半左右,所以长鑫的每个月50万晶圆wafer能产出的dram bit volume只有其他家的一半,这里计算wafer per month的时候,就按等效一半来算 把这个折扣打上之后,长鑫对整个DRAM行业的冲击还是小了很多,从2025年年底到2028年年底,长鑫对DRAM bit产能CAGR的影响大概只有1.5%,全行业的DRAM产能CAGR大概从12.7%升到14.2% DRAM月产能(kwspm) 2025E → 2028E CAGR Samsung 685K → 920K 10.3% SK Hynix 519K → 725K 11.8% Micron 340K → 560K 18.1% 非中国其他 150K → 218K 13.3% 中国(密度折半) 117K → 274K 32.8% ————————————————— 含中国总计 1811K → 2697K 14.2% 无中国总计 1694K → 2423K 12.7% 就算是长鑫未来还能保持增产速度,2030年对全行业等效产能每年DRAM bit volume增产CAGR的影响,大概也不到3%,从20% CAGR变成23% CAGR,仅此而已 另外,长鑫被光刻机所限制,而DDR6 需要更高速率(14400 MT/s 起步)和更高密度,御三家做 DDR6 大概率会用 1c 或更先进节点(~12nm 以下),已经全面用 EUV。长鑫可能会在DDR6上速率受限,密度也只有一半。 —---------------- 即便是成长性周期,为什么DRAM的这轮超级周期会持续很长时间,起码五年看不到头? 第一个原因是,刚才谈到的CPU服务器需求端的巨量增长带来的结构性DRAM需求指数增长,这里结合DRAM供给端的bit volume CAGR大概稳定20%增长,就可以很清晰的看到,DRAM未来几年的缺口为什么越来越大: 非HBM的传统DRAM供给端大概是每年增长20%,而需求端,按2026年60B CPU TAM,每个CPU消耗DRAM平均8GB/core,每个core $30~35来算,需求是16EB 2030年按400B CPU TAM,每个CPU消耗DRAM平均16GB/core,每个core $80来算(CPU涨价超过一倍),需求是80EB,这部分DRAM的增长CAGR大概是50%,远远超过目前的估算 不同于HBM是直接和token throughput挂钩,从而和GPU赚钱效率直接挂钩,DRAM不够对于agent flow的影响主要是速度,比如说,8GB/core和16GB/core比起来,部分workload速度可能降低30%,部分低价值task实在要等等也能忍,结构性指数增长的动机很强,但需求不如GPU那么刚性 Semianalysis说今年的DRAM缺口式个位数百分数,明年是超过10%。从agent CPU数量激增导致的DRAM结构性来看,这个缺口每年都会继续加大,在2030年之前看不到降低的可能 —---- 另外一个DRAM能延续强势很久的逻辑是,因为DRAM涨价之后,被涨价消灭的那部分需求,不是真的消失了,只是延迟了,需求蓄水池太多了。 所谓蓄水池,是指那些"内存一旦降价就会立刻被释放出来的潜在需求"。它们的存在,意味着即便供给阶段性跟上了,价格也很难崩,因为总有新的需求从蓄水池里涌出来接盘: 内存换算力/速度是一个蓄水池: 有大量本来需要靠额外内存来优化速度和算力的需求,在内存太贵时被压着,一旦内存降价就会被释放出来。 比如 Nvidia的CPX prefill 加速,本来的设计初衷是用额外的低成本GDDR7,来做一个专门的prefill加速器,结果LPDDR/GDDR都太贵了,比涨价前的HBM还贵,这个方案的ROI就不划算了,但等到普通内存降价,这样类似CPX的优化方案就还会回来 低价值task是一个蓄水池:内存涨价导致token价格居高不下时,高价值的 task 被优先保留,低价值的 task 被延后;内存一降价,这些被延迟的需求就回来了。 端侧 AI 是一个蓄水池:AI PC 的内存配置可能从 24GB 一路涨到 128GB。苹果已经明确要求最新的端侧AI满血版需要从8GB升级到12GB内存 常规消费电子、Agent PC、低端手机,因为内存涨价而减少的需求,全都是蓄水池。 这么多蓄水池叠在一起,构成了一个极厚的需求缓冲垫。这就是为什么 DDR 这轮的结构性增长,后劲会比市场想象的要强。 —----- 还有一个DRAM价格很难大幅下降的原因在于,HBM和DRAM产能可以互相转换,所以整个DRAM complex是一起re-rate的 在上行期DRAM的利润率远超HBM,HBM的涨价幅度甚至变成了由DRAM去推动。今年新签约的HBM4的价格,就是当期DRAM的价格 x 4,也就是正常堆叠倍数对应HBM4的价格 一旦DRAM降价毛利下滑,因为HBM的长约透明性,利润率都是有保障的,HBM就会间接抽走更多的DRAM产能,HBM的降价也会让GPU厂商更有动力尽可能的升级HBM size,这样也间接保障了DRAM的价格地板 DRAM的结构性指数增长的需求有了,density scaling放缓扩产难度在增加,厂商扩产计划都很谨慎,长鑫这几年带来的影响也是有限的,再加上需求的蓄水池非常庞大,这四个原因导致了,在可预见的至少五年甚至更长时间内,DRAM是很难进入周期低谷的。 —-------------- NAND SSD有希望摆脱传统周期性吗? NAND 的结构性增长动力没有 DDR 那么强,今年的缺货主要原因是几个主要玩家的生产纪律保持的很好,并没有大规模扩产,每年的产能增加主要来源于技术改进:NAND堆叠层数的增加 第一个结构性增长来自AI,主要来自 KV cache 的 offloading,把HBM溢出的warm/cold KV cache 卸载到 NAND SSD上。 但神奇的事情是,这个kv cache offloading的增长甚至还没有大规模发生,SSD就已经缺的比DRAM还严重了,涨价也比DRAM要更多。等到明年Rubin CMX放量,加上KV cache offloading大规模应用,SSD的缺货也会因为这个结构性增长而增长 第二个,另一个去年年度总结里说到的未来可期的AI视频带来的结构性增量,今年已经有出圈的态势了 Seedance体量在以一年十倍到四十倍的速度增长。目前它还卡在缺卡算力不足的阶段,需求被算力压着没完全释放。但等到缺卡阶段过去,AI 视频对NAND存储的结构性需求增长,会持续相当长的一段时间。 第三个结构性增长也同样来自于agent flow带来的Sandbox使用量的指数级增长,Sandbox为保障数据安全与隔离,如Analytical Agent 需为每个任务复制大量数据库和用户上下文,导致内存(DRAM)和CPU核心的严重浪费,同样会带来大量的SSD的浪费(需求) 第四个也许在2030年之后发挥作用的结构性增长,来自于HBF路线需要用到SSD,在不少投行分析中被寄予厚望,但这个技术路线还有些遥远,主要角色定位只能作为存放大模型的weights,写一次权重然后做只读,而且必须要和GPU/HBM封装在一起(48TBps/96TBps),否则靠PCIE7/8速度太慢完全无法用,只能说未来可期,下一篇AI半导体终局推演2026(III)会有更详细的分析 总之,NAND SSD的结构性增长没有HBM那么强,但是胜在便宜,价格到2027年也只有$0.8/GB,是同期DRAM的四十分之一,所以也算是多级缓存里的万金油属性,结构性增长来源太广泛了 也就是说,不存在DRAM/HBM单独涨价繁荣,而SSD不涨价的情况,因为如果这样的情况发生,那么大家就会想办法用SSD去承载DRAM/HBM的部分功能,用更低的成本实现类似的效果。HBM、DRAM、NAND 不是三个独立故事,而是同一 AI memory hierarchy 在不同温度层的结构性增长 结构性指数增长的需求有了,NAND SSD摆脱周期了吗? 那么就要看NAND SSD厂家的生产纪律了,唯一可能不遵守生产纪律的,只有长存。毕竟这是一个囚徒困境,一旦有一家不讲武德拼命扩产,整个NAND产业要扩产的难度比DRAM简单的多。 但最起码的,这一轮NAND同样是超级周期,几个结构性指数增长带来的需求,下行期推迟到2030年问题不大
显示更多
0
193
2.2K
638
转发到社区
最近发现一套不错的办公 skills - SenseNova Skills, 已经 4.1k 个 stars 了。 这是基于底座 SenseNova 智能体模型开发的一系列 skills,针对办公需求,专注帮 AI Agent 做 PPT 生成、信息图、可视化、Excel 分析等真实办公场景。 我测试了两种常见需求,第一是自动生成高质量 PPT,sn-ppt-entry / sn-ppt-standard,我把英伟达最新一季的财报数据丢给它,让它去生成,几分钟就能出一份结构清晰、设计专业的 PPTX,连图表都自动做好。 第二是生成信息图,sn-infographic,高质量信息图 / 技术分解图 / 产品可视化 把最近很流行的事件:Nvidia 与 SK Hynix 达成多年合作的的新闻丢给它,直接生成出了类似下面这种很形象富有科技感的新闻信息图,感觉很不错。 除了这两个需求,它还可以完成其他常见的办公需求: * Excel 数据分析:自动处理大文件、多 Sheet 分析、出图表 * 深度研究:完整研究报告生成 我已经把它集成到自己的 Agent 工作流里了,OpenClaw Hermes 都可以,我是用的 Codex,有类似任务现在直接丢给 Agent 全自动搞定,需要的朋友们可以收藏备用下。
显示更多
0
7
197
49
转发到社区
我时常觉得Twitter 上的分析有时候太过碎片化,情绪化。同样的话题,会被反复炒作,通过AI更换一个观点,然后重发出来,其实本质是换汤不换药的,但却浪费了很多阅读📖时间! 我今天讲讲我常看的一些免费的Research或Insights 频道,他们都来自世界顶尖的量化基金或者投行,您收藏完这些网站,可能对我的内容,就不感兴趣了!😂 但我觉得还是需要分享给大家,一同精进,共同成长,尤其是炒美股的小伙伴,可能获益匪浅! 1️⃣Citadel Securities 的 Market Insights 大名鼎鼎的城堡🏯证券,极硬核的数据密度与纯粹的交易员视角。基本不讲那些大而无用的宏观故事,而是直击市场微观结构的底层逻辑。 因为是全球顶级做市商,所以拥有顶级的“上帝视角”数据源,以及深度的市场微观结构剖析,做美股交易必看! 网址: 2️⃣Man Institute 英仕曼集团 大名鼎鼎的英仕曼,全球最大上市量化对冲基金的官方研究机构,Man 核心优势在于用纯粹的量化回测与统计学视角去拆解宏观、主动投资以及系统化策略。它的研究风格与 Citadel 的数据驱动极其相似。 它有一个独家的风险预警策略,能辅助我们卖出,毕竟会买的是徒弟,会卖的是师傅。尤其是它们家的CTA 与系统化策略,对市场动量、大宗商品流向以及量化基金在极端行情下的仓位拥挤度有着极敏锐的观察,能提供普通散户看不到的风险预警。会经常发布一些,关于通胀周期、系统化多空、以及流动性脆弱性等硬核的深度长文。 网址: 3️⃣Morgan Stanley Institute 大摩研究院 可以说是华尔街卖方的标杆,大摩的研究大脑。核心优势在于无与伦比的行业基本面穿透力与全球宏观政策的定价风向标,而且前瞻性极高,往往会提前1-2个月做风口预判! 假如你要分析行研,分析基本面,分析供应链穿透,看它就够了。拥有全华尔街最庞大的行业分析师团队。其优势在于“自下而上”的超级深度,能直接拿到全球产业链一线的核心一手数据,比如对 AI 算力 CapEx(数据中心、电力瓶颈、芯片订单)的每季精细追踪,以及传统 SaaS 软件生态的业绩测算,几乎是全球机构定价的重要锚点。 网址: 4️⃣ Bridgewater 桥水基金 Bridgewater的创始人,Ray Dalio算是全球系统化宏观对冲基金的鼻祖,核心优势在于其独步华尔街的“因果驱动”宏观框架与全天候资产配置逻辑。但最近一直喊空AI,搞的我有点烦,看的越来越少了,但它的全天候大类资产配置方案,还是很牛逼的,可以学一学。 假如你要学习宏观,学习宏观数据对金融市场的影响,学习通胀/通缩拐点以及财政与货币政策的协同传导效应,可以去看一看他们的研究,他们属于大周期玩家,周期拐点的预判还是极准的。 网址: 5️⃣SemiAnalysis 全球半导体与 AI 算力基础设施领域最具声望的独立研究机构,核心优势在于其极其硬核的微观工程视角与对供应链底层的绝对穿透力。 假如你要学习AI物理硬件,学习MLCC,学习光互链,学习HBM,学习先进封装CoWos。这个网站极其硬核,不同于传统券商只看财报数字,SemiAnalysis 拥有深厚的半导体工程背景。他们能从微观物理层面拆解技术,比如直接评估 Nvidia 最新芯片架构的晶体管密度、HBM的良率瓶颈等等内核。一般地方还真看不到!🧐 网址: 其他的一些网站,像贝莱德,高盛(部分付费),AQR,美银,J.P. Morgan Markets Insights,Apollo Academy 都是不错的网站,都有自己的Research频道,可以多用多学习,也可以装一个Codex 让它每天做汇总报告,也是极其方便的! 学无止境,美股路上,皆是我的老师,有什么美股好的研究频道或者网站,也可以评论区共享,发网址,付费或免费都可以!🧐
显示更多
0
12
228
77
转发到社区
这次深圳华强北回来后,看到好兄弟用真金白银在囤积MLCC,他告诉我,这玩意儿目前供不应求,而且现在有现货的就是爷爷,拿货都在涨! 今天看到全网都在讨论存储的时候,我花了一天时间在研究MLCC🧐 我决定,这一波下跌📉,我将逐渐加仓村田(#MRAAY#),它是全球AI服务器高容MLCC市场的绝对龙头,占比45%的市场份额,具有极强的定价权,在今年4月1日,就率先涨价15%-35%,有绝对的统治力! 具体市场需求和市场竞品对比,可以看👇图,高容MLCC不光在AI服务器领域,在高端新能源汽车领域,也存在巨大需求。最近正好试驾了理想L9Livis,800V高压平台驱动,相对于传统48V,那底盘和线控体验,十分惊艳,这种800V平台我觉得是未来大趋势,车规级MLCC,高端领域也是村田的主要战场,高端智能汽车单车用量至少要3万颗车规级MLCC以上! 回到AI方向,就要讲讲它家的王牌产品,0402英寸超薄超高容量 MLCC,这是目前全球独家的产品,这种极致的小型化,完美契合了 HBM3e / HBM4 以及下一代 GPU Nvidia Rubin 架构,能够在极小的物理空间内解决高功率GPU和HBM的高频退耦与供电稳定问题,这应该算是高密算力时代的核心堡垒。目前即使第一梯队的三星电机和太阳诱电也都在追赶,无法实现量产! 另外从最新的财报数据📊来看,这或许是我目前为数不多下的去手的AI硬件公司,这次回落以后,它的前瞻PE仅仅22.2倍(目前是72倍)! 叠加日元贬值的利好,也会有利于它的业绩兑现,目前以1:150美元汇率保守预估,26/27全年净利润大概率将会触及3280亿日元,对应EPS约为180日元,前瞻PE将会大幅回落至22.2倍,这对于动不动百倍PE的硬件公司,香太多了! 提一嘴,我最爱的美光(#MU#),目前回落后,前瞻PE已经回落到10倍以内,假如能在800美金以内买到,也是很香!🧐
显示更多
0
87
359
71
转发到社区
为什么 MLCC 又重要了? 本文专注于三个问题,大家各取所需: 1. 为什么现在MLCC变得重要了? 2. 为什么是高端MLCC? 3. 为什么本次更像是结构性短缺而非补库存周期。 请注意,本文的逻辑您可以直接复制给你们的AI,AI会告诉你基于本文描述的情况还能找到哪些其他的产业,或是在中国A股有什么标的。 本文不赘述此处,但是欢迎大家评论区留言讨论。 觉得大家有点价值,欢迎大家画一刀点个订阅。 ---------TL:DR--------- 1. 为什么现在MLCC变得重要了? 过去看MLCC,会把它当成一个手机、PC、汽车电子周期品。 手机出货好,MLCC好;消费电子差,MLCC差。这个理解不能说错,但在AI服务器时代,它已经不够用了。 因为AI数据中心正在把MLCC从一个“普通被动元件”,重新推回到一个非常关键的位置:Power Delivery Network,也就是供电网络。 AI服务器的核心问题,不只是GPU够不够多,HBM够不够快,光模块够不够密。还有一个更底层、更物理的问题: 这么大的电流,如何稳定、低损耗、快速响应地送到GPU/ASIC核心?这就是MLCC重新变得重要的原因。 现在的数据中心供电架构正在发生变化。传统服务器时代,12V供电已经用了很多年。但AI rack功耗暴涨之后,行业正在往48V/54V,甚至±400VDC/800VDC演进。 Google、Meta、Microsoft推动OCP Diablo 400;NVIDIA也在推800VDC AI factory power stack;TI、Vertiv、ABB、Delta这些公司也都在围绕800VDC架构布局。 但这里有一个容易被误解的点: 高压供电解决的是远距离传输效率,不是芯片核心附近的供电问题。800V也好,48V也好,最终到GPU/ASIC核心,仍然要变成不到1V的核心电压。 而一个1000W级别的AI芯片,如果核心电压约1V,意味着它附近要处理的不是几十安培,而是数百到上千安培的瞬态电流。 这才是真正可怕的地方。 AI芯片不是一个稳定耗电的灯泡。它的负载会快速跳变。某个计算任务起来,电流需求瞬间拉高;电源网络如果响应不够快,电压就会下陷,也就是voltage droop。droop太大,轻则降频,重则错误、宕机、可靠性下降。 所以越靠近GPU/ASIC,越需要大量电容作为局部电荷缓冲,压低PDN阻抗,抑制噪声和电压波动。 这就是MLCC在AI服务器里的真实作用。 它不是“板子上随便贴一堆小电容”。它是在帮GPU/ASIC维持高速运行时的供电稳定性。 2. 为什么是高端MLCC? 但这里必须强调:真正重要的不是所有MLCC,而是高端MLCC。 为什么? 因为AI服务器需要的不是普通消费级规格。它要的是:高容量、小尺寸、低ESL、低高度、高可靠、高耐压、耐高温,甚至要能放在package附近、land-side、die-side,或者参与嵌入式PDN设计。 普通MLCC解决不了这个问题。因为在高频场景下,电容不是只看容量。ESL,也就是等效串联电感,会变得非常关键。ESL太高,电容在高频下就不像电容,反而会失去去耦效果。 所以AI服务器真正需要的是低ESL、短电流路径、大电流截面积、能贴近芯片的MLCC。 这就是为什么村田在AI服务器供电指南里,不是泛泛而谈“MLCC需求增加”,而是专门讲die-side、land-side、低ESL、低高度、小型高容量,以及PDN仿真和元件摆放。 这背后的意思是:高端MLCC已经不只是材料问题,而是供电架构问题。这也解释了为什么这轮更像“结构性短缺”,而不是普通周期补库存。 3. 为什么本次更像是结构性短缺而非补库存周期? 普通MLCC并不一定短缺。手机、PC、一般消费电子需求并不强,很多标准规格并没有进入全面紧缺。 但AI服务器用的高端MLCC是另一回事。 它受限于几个东西: 第一,需求增长不是单纯来自AI服务器数量增加,而是每块AI baseboard、每个power module、每个GPU/ASIC附近的电容用量和规格都在上升。 第二,高端MLCC产线不是普通产线随便切一下就能做。小型化、高容量、低ESL、高耐压、高温可靠性,都涉及良率、工艺、材料和测试能力。 第三,AI服务器客户认证周期长。进入GPU/ASIC供电网络的元件,不是今天报价、明天替换。它要和主板、封装、电源模块、热设计、仿真模型一起验证。 第四,头部供应商不太可能为了短期需求疯狂扩普通产能。经历过多轮MLCC周期后 村田 (村田製作所, Murata 太阳诱电(太陽誘電, Taiyo Yuden 三星电机 (삼성전기,Samsung Electro-Mechanics TDK ( 这些厂商更倾向于把产能分配给高端、高可靠、高利润规格,而不是重走低端过剩路线。 所以我们看到的可能不是“MLCC全行业普涨”,而是: 低端松,高端紧。消费级松,AI服务器紧。普通规格松,高容量/高耐压/低ESL/低高度规格紧。 这就是结构性短缺。 还有一个问题:硅电容会不会替代MLCC? 我的理解是,不是简单替代,而是分工。越靠近die、越高频的位置,硅电容会更有价值。它可以进入封装,interposer、die-side附近,处理极高频瞬态。但板级、power module、48V输入输出、land-side、中高频去耦,仍然需要大量高端MLCC。 所以硅电容的出现,并不是否定MLCC逻辑,反而说明同一个趋势: AI芯片附近的电源完整性,正在变成新的价值池。 未来不是某一种电容通吃,而是MLCC、硅电容、聚合物电容、嵌入式电容基板一起分工。 因此,MLCC这条线最重要的判断,不是“会不会像2018年那样全行业大缺货”。 我认为更正确的问题是: AI服务器高端MLCC会不会持续紧? 我的答案是:大概率会。 因为AI rack功耗还在继续上升,48V/54V只是当前阶段,±400VDC/800VDC是下一阶段,但不管远端电压怎么升,最终芯片核心附近都必须面对低压、大电流、高瞬态、高热密度的问题。 只要这个问题存在,高端MLCC就会继续重要。 短缺也更可能出现在这些方向: 高容量、小尺寸MLCC 低ESL、低高度MLCC land-side / die-side 用MLCC 48V电源系统里的高耐压MLCC 高温、高可靠、服务器级认证规格 能参与PDN仿真和客户协同设计的高端料号 所以这不是简单的“被动元件涨价故事”。 更准确地说: MLCC正在从消费电子周期品的一部分,变成AI基础设施供电网络的一部分。 这也是为什么它值得重新研究。 AI产业链的利润池,不只在GPU、HBM、光模块。 当算力继续堆高,瓶颈会自然扩散到供电、散热、互联、存储这些底层物理环节。 而MLCC这一次站上的,正是“供电完整性”这个位置。 这才是这轮高端MLCC行情最值得重视的地方。
显示更多
0
10
190
53
转发到社区
月度复盘及展望 4月我们经历了ai板块的大涨,核心标的如intc等堪称波澜壮阔, 结合目前的市场数据与量化模型,我们将关于5月美股市场因素总结为以下四点: 1. CTA 动能:从“助燃剂”转为“阻力位” 状态切换: 过去几周 VIX 从 30 回落至 16.9,CTA 已经完成了约 800 亿美元 的补仓。这意味着这类资金的“子弹”基本打光,仓位已处于历史高位。 5月预测: 无论市场涨跌,CTA 在 5 月都将转为净卖方(预计每日流出数十亿美元)。若标普 500 回撤超过 3.75%,将触发约 500 亿至 1000 亿美元 的系统性抛售。 2. 基本面:AI 资本开支(Capex)的“双刃剑” 利好: 大科技公司(如微软、Meta、谷歌)不仅没有缩减开支,反而集体上调了 2026 年预期(约 7250 亿美元),这为硬件端(如 NVIDIA)提供了极强的业绩支撑。 风险: 市场开始从关注“AI 故事”转向关注“投资回报率”。巨大的 Capex 支出正在侵蚀企业的自由现金流,导致市场对大科技公司的评价标准变得极其苛刻(即“奖惩分明”的结构化行情)。 3. 市场环境:VIX 16.9 传递的“脆弱信号” 低波陷阱: VIX 处于 16.9 的低位说明市场目前处于“自满”状态,对利空防备不足。 反向指标: 低 VIX 意味着对冲成本极低,但同时也意味着一旦 5 月出现美联储鹰派或财报不及预期,波动率的非线性跳升将引发量化模型迅速“降杠杆”,放大跌幅。 4. 5 月行情展望:震荡与去伪存真 多空拉锯: 5 月美股将面临“业绩强劲”与“资金面撤退”的拉锯战。 季节性压力: 叠加“Sell in May”效应和养老金约 270 亿美元 的再平衡卖盘,市场缺乏进一步上攻的增量资金支持。 定调: 5 月行情以高位震荡、回撤筑底为主。AI 板块将进入“交付期”的残酷转型,只有真正能兑现利润的公司才能维持股价,而指数层面则面临中枢下移的风险。 总的来说, “买盘已尽,风险未去”——AI 的强劲业绩目前是市场的“保命垫”,但 5 月继续大涨,则可能需要更强劲的助推器。 免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议,dyor
显示更多
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
显示更多
0
58
992
298
转发到社区
生成式AI往代理式AI迁移中,新的卡脖子环节又出现了,这次是CPU。之前市场关于算力紧缺的讨论都在GPU、HBM、光模块、电力等环节,其实对于CPU的关注比较少。其实Cpu的紧缺传了一段时间了,看最近英特尔、AMD走势最核心驱动力就是来自cpu开始出现紧缺了,甚至连过往不怎么受待见的港股联想集团,最近两周走的也很强。 1、为什agentic ai时代CPU占比会扩大? 传统AI(主要是大模型训练/推理)高度依赖GPU,因为Transformer的核心是并行矩阵运算,GPU擅长高吞吐的并行计算。这时CPU主要只负责“辅助”:数据路由、内存压缩、GPU调度等,导致数据中心CPU:GPU比例很低(典型1:4~1:8,甚至1颗CPU管8颗GPU)。CPU利用率低,基本是配角。 Agentic AI完全不同,它不是单次“问答”,而是自主多步循环(Planning → Tool Use → Act → Observe → Reflect → Iterate),涉及: 1)编排:调度子任务、多智能体协作、分支逻辑、重试机制。 2)工具调用:网页搜索、API调用、代码执行、数据库查询、向量检索(RAG)、文件处理等。 3)其他CPU密集任务:上下文管理、KV Cache处理、强化学习(RL)仿真评估、数据预/后处理。 这些任务高度串行、I/O密集、逻辑分支多,GPU并不擅长(甚至会闲置)。研究显示:工具处理阶段在CPU上可占总延迟的50%~90.6%(GPU在等待CPU)。Agentic工作流中CPU动态能耗占比可达44%,比传统AI高3~4倍。 简单说,Agentic AI把“思考”交给GPU,但把“做事/协调”交给CPU。CPU从“管家”变成了“总指挥”,必须大幅增加才能让整个系统高效运转。这就是CPU占比扩大的核心驱动(Intel、AMD、Arm、TrendForce等一致观点)。 2、CPU成为新紧缺环节的现实证据 今年Q1 Intel/AMD服务器CPU交期已经拉到6-12周,部分型号基本售罄,价格也提了10%以上。厂商自己都说“demand far exceeded expectations”。不是产能不够,而是Agentic AI把CPU从“可有可无”直接干成了“必须配足”的总指挥。 数据中心项目现在除了电力,就是CPU卡脖子最严重。传统x86(Intel/AMD)高功耗+产能紧张,供应链直接打爆。 3、CPU缺口会有多大? 行业共识是CPU:GPU比例将显著拉近,CPU需求大幅提升:从传统1:4~1:8(CPU:GPU)转向1:1~1:2(部分场景甚至1.4:1,即CPU比GPU还多)。看之前Arm估算,每GW算力需要的CPU核心从3000万激增到1.2亿(4倍增长) CPU算力份额:在Agentic工作流中,CPU承担的算力比未来机架/集群可能从“GPU主导”转向更平衡,甚至出现专用CPU rack来支撑Agentic编排;AMD/NVIDIA新一代平台已开始按1:2~1:4设计 这就带来了CPU需求的真实拐点,是实打实的硬件重构。 4、特别要说下ARM服务器CPU会更受益一些? Agentic AI最需要的就是“高核心数+低功耗+稳定串行处理”。ARM天生多核可扩展、perf/watt领先:Arm AGI CPU(136核,TDP仅300W)对比x86同规格功耗低40%+,每机架性能直接翻倍。风冷机架就能塞8000+核,液冷更能到4万+核,完美解决数据中心的“功耗墙”。 更狠的是生态大转向:AWS Graviton、Google Axion、Microsoft Cobalt早就自研ARM,云巨头集体“去x86化”。Arm 3月直接下场自研AGI CPU(首款量产芯片),Meta、OpenAI、Cerebras都是首发伙伴,OEM有联想、Supermicro。 Counterpoint预测:AI ASIC服务器CPU里,ARM份额从2025年25%干到2029年90%。Arm自己说,这波能把数据中心CPU TAM从30亿版税干到1000亿+,未来几年服务器CPU营收很可能超手机,成为最大增长极。 看下周和5月初英特尔、amd的财报电话会上,cpu实际出货量的变化、以及cpu的真实价格变化。这能说明真的有多紧缺。 5、CPU紧缺哪些公司会受益? 梳理了下哪些公司会受益,后续关注起来: 美股最核心: Intel (INTC)ntel 依然是服务器 CPU 市场的霸主。短缺潮会提升其过往型号的利润率,且其 Gaudi 与 Xeon 的组合在代理推理端有强劲需求。 AMD (AMD):理由:在 Agentic AI 服务器市场,AMD 的 EPYC 处理器因多核心优势和高性价比,目前在云厂商中的市占率持续提升,是 GPU+CPU 均衡配置趋势下的首选。 Arm Holdings (ARM):越来越多的云厂商(亚马逊、微软、谷歌)开始自研基于 ARM 架构的 CPU。无论谁赢,只要 Agent 需求推高 CPU 核心数,Arm 的授权费就会大涨。 港股(制造与分销关键点) 中芯国际 (0981):虽然其在最先进制程受限,但大量非核心逻辑控制芯片(支持 CPU 运作的辅助芯片)和中端 CPU 的需求外溢,会显著提升其产能利用率。 联想集团 (0992):全球第一大服务器与 PC 厂商。在短缺潮初期,拥有强大供应链管理能力和库存的大厂能通过提价和保证供应,抢占更多政企市场份额。 A股(国产替代与配套产业链) 海光信息 (688041):国产 x86 服务器 CPU 的龙头。在 Agentic AI 时代,由于其架构与全球生态兼容性最好,国内算力中心在补齐 CPU 短缺时,海光是第一顺位替代品。 龙芯中科 (688047):自主架构 CPU 的代表。随着国产自主可控需求增强,在党政和关键基础设施的 Agent 应用中受益。 深南电路 (002916) / 沪电股份 (002463):理由:配套受益。CPU 核心数增加和 GPU+CPU 配比调整,要求更复杂的 PCB(印制电路板)和封装基板,这些公司是全球高端服务器 PCB 的主力供应商。 澜起科技 (688008):内存接口芯片龙头。只要 CPU 多,内存条就多。Agent 时代对内存带宽要求极高,其 MRDIMM 和内存接口芯片是 CPU 性能爆发的必需品。 投资逻辑核心其实两点: 1)量价齐升:CPU 厂商(AMD, Intel, arm、海光)最直接。 2)卖铲子的人:由于 Agent 需要高带宽,内存配套(澜起)和先进封装/基板(深南)的需求甚至比 CPU 本身更稳。
显示更多
0
24
313
94
转发到社区
$TAO 真的出息了,打开行情,TAO又在独涨 看了一圈,核心催化剂还是 All-In Podcast 里 Chamath 点名 + NVIDIA CEO 当场肯定去中心化训练 。同时 Grayscale ETF 备案传闻在持续发酵,整个社区都很振奋。 SN3 Templar 的出圈效应还在持续 ,市值破 $100M+,这是 Bittensor 真正的 Singularity Moment,是从 0 到 1 的质变。 过去8年来,大家公认 Crypto 能干两件事:发行资产,交易注意力。 但现在多了第三件:组织生产力。 不是算账,不是投机,是真实的算力被去中心化地调动起来,输出了一个生产级的大模型。 Crypto 机制第一次在 AI 领域组织出了真实的生产力。 Bittensor 从“理论上可行的crypto AI”变成了一个被实践验证的“真实生产级去中心化AI基础设施”。 从资金流向来看,过去24小时,TAO 主要流向SN4、SN9、SN68、SN3、SN1、SN85。资金在不断流向真正做事、更具生产价值的子网。
显示更多