Announced today at #
MSBuild#: Microsoft unveiled Majorana 2, a next-generation topological quantum chip developed with the help of Microsoft Discovery’s agentic AI.
显示更多
Ivanka Trump says she swam barefoot to a 1,400-hectare, off-grid Mediterranean island to scout her next project. Now, she and Jared Kushner are building a massive destination from scratch on one of the last untouched coastlines in Europe. Here is exactly what they are building.
I looked into the details. The site is Sazan Island in Albania. It is a decommissioned Soviet and Italian military base that has sat abandoned for years.
Through Kushner’s firm, Affinity Partners, they are investing $1.4 billion to transform the restricted island into an ultra-luxury eco-resort.
To pull this off without ruining the pristine terrain, they partnered with Aman Resorts. Aman is famous for hiring master architects who integrate buildings directly into the natural topography. Major Food Group, the company behind Carbone, is handling the dining.
Building a world-class destination from absolute scratch with zero existing power infrastructure is a massive logistical challenge. If they succeed, they will turn a forgotten weapons base into one of the most impressive travel destinations in the world.
显示更多
华为τ scaling定律营销策略,无非是more than moore的广义摩尔定律的另一种说法而已
作为芯片架构师,我更感兴趣的,还是芯片密度提升,ppt上41%能耗提升和12.7%性能提升,到底是怎么实现的
看完了论文,感觉华为这次创新,本质上是用设计复杂度高 + 高制造成本 + 超前散热,一定程度弥补了工艺差距
-----------------
1. 华为芯片堆叠带来的等效密度提升,是虚假宣传还是真的,是不是工艺突破?有没有实打实的好处?
等效密度提升的来源,是两片芯片用hybrid bonding技术绑在一起,投影面积理论上能减小一半,但第一代不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)
这2026第一代等效密度从 2025 年 155 MTr/mm² 跳到 2026 年 238 MTr/mm²,时钟频率也提升了12.7%,功耗比提升41%,表面上看似乎和工艺突破没有什么区别,但有一点重要区别就是leakage power华为从头到尾没有提,只要工艺节点不变,gate leakage、junction leakage 不会因为 3D stacking 自动改善
2030年到2031年的等效密度突变,大概率是来自于2层堆叠到3层堆叠,正如2025到2026年的等效密度突变,时钟频率突变,来自单层到2层折叠
所以从leakage没提这个事来看,这个2031年等效1.4nm,和工艺节点上的突破没有联系。
本质上是用设计复杂度高 + 高成本 + 超前散热 + 超前部署advanced packaging,一定程度弥补了工艺差距
-----------
那么这样看起来虚假的等效密度提升,有用处吗?好处在哪里?
有的,设计上topology折叠,原来要跑几毫米的水平走线,折叠后变成了几十微米。降低了super buffer/bus的长度,降低了clock tree的深度(clock depth -42%、clock wire -28%),clock skew也带来了改良(-25%),这对动态功耗的改善是实实在在的。部分critical path的缩短,也让时钟频率的上升更容易
所以ppt roadmap上performance的提升,从2025年到2026年上升了12.7%,大部分都是来自于时钟频率的上升(12.7%)
所以好处基本上是topology拆分电路逻辑设计上带来的提升
既然没有实质上的工艺提升,华为芯片堆叠带来等效密度提升的trade off代价在哪里?
三个代价:散热超前发展,设计复杂度高,制造成本变高
最大的代价就是热密度的同步上升,理论上logic on logic都是CPU execution发热最严重的区域,这部分折叠起来相当于功耗密度直接翻倍,但算上41% power efficiency改善,功耗密度仍只比非堆叠方案高40%左右。所以第一代只能对最关键的部分做折叠,大概只占全芯片面积的53%。
所以散热技术也被逼的超前发展,直接上毫米级的MEMS风扇,做micro-cooling fan。
另外的代价就是设计复杂度的变高,critical path的折叠,哪个部分的logic能折叠,折叠之后又会带来从前端到后端的巨大变化要推翻重来
现有的所有EDA工具也不可能支持3D topology,论文自己也承认,full-scale LogicFolding需要全新的3D-native EDA toolchain,把多层stacked dies当作单一连续设计实体处理。哪些logic能折叠、折叠后的inter-die timing closure怎么做,Physical Design(PD)也是难点
制造成本也会更高,被迫超前部署advanced packaging封装,1.5~2um的hybrid bonding + logic on logic都是很有挑战需要显著更高的成本
以前一层wafer做一次光刻;现在两层wafer分别做光刻再bonding,加上hybrid bonding的overlay控制(论文要求<0.5μm)、TSV、KOZ keep-out zone、冗余修复、良率乘法损失,每颗芯片的制造成本和测试成本都要显著上升
--------------------------
2. Tau scaling这个说法,scaling的到底是什么,这个scaling技术路线是不是一次性的design topology红利?潜力如何?持续进步的空间在哪里?
τ Scaling的核心主张是:用时间常数τ替代几何线宽作为全栈优化目标,在器件、电路、芯片、系统四个层级分别压缩特征延迟
公式本身没有任何新物理。"关注瓶颈延迟"是所有架构师都在做的事情。整个行业都知道互联RC是延迟瓶颈,TSMC每一代工艺都在用low-k dielectrics/semi-damascene等手段降RC。把一个众所周知的优化方向包装成"定律"是显然的营销宣传手段,本质是More than Moore的广义摩尔定律的另一种说法
抛开marketing,华为目前所谓RC delay的改善,本质上是芯片堆叠之后,topology距离缩短,让匹配的effective RC都变小,不是RC工艺常数
至于scaling的意思,是能持续发展的一条roadmap。这里的持续改善路径指的是,全芯片堆叠的层数越来越多,从25~30年的2层堆叠,到31年开始的3层堆叠,以后甚至会考虑4层堆叠
第一代折叠技术甚至不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)。2031年的roadmap之所以会出现一个阶跃,就是因为那是从2层折叠到3层折叠的时间点。
但需要注意的是,这个scaling方法的边际效应是逐渐缩小的,折叠成双层的收益是100%,2->3层的收益就只有50%,如果2035年再从3->4层堆叠,收益就只有33%了
另外随着堆叠层数变高,上面说到的三个挑战,散热,设计复杂度,成本,都是越来越大
---------------------
3. 华为的芯片堆叠,是不是TSMC/AMD已经有的hybrid bonding技术?华为做到的是cache on logic,cache on cache,还是logic on logic,logic on logic最大的散热问题是怎么解决的?
是已经有的技术没错,但同时也是把现有技术指标做到了领先也是真的,3D堆叠本身不是新技术,TSMC的hybrid bonding量产还是6um,华为论文给出Kirin 2026的hybrid bonding pitch是1.5μm
我在刚刚看到华为的堆叠消息之后,第一反应也是怀疑和AMD的3D V cache类似,它主要把 SRAM cache 叠在 已经有的L3 cache 区域上,通常会避免直接堆在最热的 CPU execution logic 上,就是避免散热问题,毕竟SRAM 的功耗密度和热点特性与high-activity logic 不一样,如果最热的logic on logic堆叠,散热恐怕会碰到困难
但看了更多数据之后,clock buffer -56%、clock depth -42%、clock wire -28%,这些只有在core内部的clock distribution被重构时才可能发生。纯SRAM stacking不会碰core内部的clock tree。另外如果只是cache on cache,大概率是不需要单独MEMS微型风扇额外散热的,证据普遍都指向logic on logic方式
华为这个技术的精妙之处在于,logic on logic 折叠之后热密度并没有翻倍,而是因为topology的好处,能耗下降了30%,这样热密度只上升了40~50%
而第一代没有完全把整个最热的execution logic 100%堆叠起来,论文也明确说selectively applied along key critical paths,只是大概53%有选择性关键路径会堆叠起来,可能颗粒度都没有那么好,只是IP堆叠在IP上,那么热密度上升也许能维持在20%以内
但这条道路继续前行,超前发展的散热就成了必然,现在是MEMS微型毫米级的主动散热风扇,紧贴处理器传导效率高,和华为手机一样,散热堆料特别足,而且技术领先同行。
以后怕是要把HBM7/8的微流道散热技术提前用起来了,毕竟HBM7/8要上24+层堆叠,华为很可能要在提前用上下个世代的散热技术了
-------------------------
4. 从架构角度来说,最重要的问题,华为41%的power efficiency(能耗比)提升,到底是怎么实现的?为什么AMD的3D V cache没有这么大的提升?
首先确定41%的定义。论文只说"SoC performance-core power efficiency improved by 41%",没有给出benchmark名称、Voltage/Freq点、温度条件、功耗边界。但PPT roadmap上有一个关键线索:ISO-Power Performance的数字,2025年是2.75,2026年是3.1,提升12.7%
这个时钟频率提升12.7%完全一致,可以理解为,同功耗的性能提升是12.7%,绝大部分是时钟频率提升带来的
至于能耗比上优化的猜测是,LogicFolding缩短critical path → 在固定Vdd下Fmax从2.75GHz提升到3.1GHz → 这意味着在原来的2.75GHz频率下,有了约12.7%的timing headroom → 这个空间在iso-performance模式下可以换成更低的Vdd
另外的能耗比的提升,可能也来自于电路折叠之后,cache hit latency的下降。从业界经验来看,一般L2/L3 cache hit latency下降10%,CPU整体性能会有至少5%的提升
ppt里显示SRAM latency下降30%,估计会有一部分转化为cache hit latency的下降
AMD的3D V cache没有这么大的提升,主要是因为AMD的底层logic die并没有重新设计,3D cache的延迟latency不仅没有减小反而加大,只是增加了cache大小,收益不如latency下降那么明显。
另一方面,clock skew的下降,critical路径变短,造成电路timing变好,意味着华为可以使用更低的vdd(猜测甚至能低7~8%),以及路径缩短所带来的RC的下降(考虑到clock buffer -56%、wire -28%、SRAM pJ/bit -24%这些数字,比如C_eff下降10~15%合理),再加上clock tree的整体缩短和下降,确实是有可能在部分Voltage/Freq点做到同性能下,做到30%的功耗下降的,而30%的功耗下降换算过来就是41%的power efficiency
对比苹果和高通,每一代手机芯片在iso-power下单核性能一般提升10-20%,iso-performance下功耗一般降30-40%,这是V/F曲线的特性决定的,所以从经验上来说,数字是对的上的。
所以这个power efficiency(能耗比)的提升,从现有的数字上来说可以从topology推导出来是合理的,可能真的和工艺节点没有太大关系
----------------------------
5. 这个技术路线有没有可复制性,其他家会不会效仿?
短期内不会大规模效仿,因为性价比和风险收益比来说不好。长期来看,这个方向所有人都在走,只是名字不一样
华为做LogicFolding的根本驱动力是制裁,工艺节点被卡在7nm,只能在封装,散热,和设计层面想办法弥补。华为也为此付出了不小的代价:散热成本,设计复杂度,以及制造成本更高(包括良率)。这是一个被逼出来的路线,不是一个自然选择
其他玩家在用TSMC就能做到正常的经济迭代,是没有必要冒着这个风险,去超前迭代散热技术和设计复杂度的
长期来看,Intel的Foveros、TSMC的SoIC、AMD的MI300的3D stacking都在朝同一个方向走。如果继续追最先进节点的经济性持续恶化,那么"固定一个成熟节点+3D topology optimization"的路线会越来越有吸引力
散热方面,MEMS微型风扇和微流道也会成为未来HBM散热的主流
-------------------
总结一下,华为这次的创新,绝对是值得尊重的,在制裁环境下,用极高的设计复杂度和成本,在一个被锁定的工艺节点上大胆重新设计,榨出了一次大的topology红利,虽然它有天花板。每多加一层的边际收益递减(堆叠1->2层, 2->3层, 3->4层,提升百分比变小),leakage无法解决,散热越来越难,3D EDA工具链更是全新的挑战。
但这个Tau scaling不是一条可以走十年的指数增长路径,每次爬完一个台阶,下一个台阶更难爬,而且台阶更矮收益更小,华为以后想缩小差距,还得再想想靠什么其他的路线
显示更多
Les vrais génies de l'histoire.
108 milliards d'humains ont vécu sur Terre. La liste ci-dessous en contient ~100. Soit environ 1 sur 1 milliard.
C'est ça, le « autre chose » que les gens cherchent quand ils refusent d'admettre que Jobs ou Einstein étaient hors-norme. Une conjonction rarissime de cognition + obsession + timing + courage cognitif + santé mentale juste-assez-stable.
Critère retenu : saut non-substituable. Sans cet individu précis, la chose n'arrive pas, ou arrive 30 ans plus tard sous une forme dégradée. J'exclus les agrégateurs (Edison), les opérateurs talentueux (Altman), les copieurs brillants et les figures dont la réputation vient surtout du PR.
— PHYSIQUE —
Newton — synthèse mécanique + optique + calcul, refonde la science occidentale seul
Maxwell — unification électromagnétique, prédit les ondes EM avant qu'on les mesure
Einstein — relativités restreinte et générale, photoélectrique, base de la quantique
Dirac — équation relativiste de l'électron, prédit l'antimatière par pure beauté mathématique
Heisenberg — mécanique matricielle, principe d'incertitude
Schrödinger — mécanique ondulatoire
Bohr — modèle atomique, interprétation de Copenhague
Pauli — principe d'exclusion, postule le neutrino sans preuve
Feynman — électrodynamique quantique, diagrammes, refonte pédagogique de la physique
Boltzmann — fondations statistiques de la thermodynamique, seul contre tous
Planck — quantum d'action, déclenche tout
Galilée — méthode expérimentale + héliocentrisme défendu
Kepler — lois du mouvement planétaire, abandonne les cercles parfaits par pure honnêteté empirique
Faraday — induction, champs, sans formation mathématique
Fermi — physique nucléaire théorique ET expérimentale, premier réacteur
Landau — quasiment tous les sous-champs de la physique théorique
— MATHÉMATIQUES —
Euclide — axiomatisation de la géométrie, modèle de toute pensée déductive
Archimède — calcul infinitésimal 1800 ans avant Newton
Gauss — théorie des nombres, géométrie différentielle, statistiques, le plus polyvalent de l'histoire
Euler — productivité et profondeur jamais égalées, fonde des champs entiers
Riemann — géométrie qui rendra possible la relativité, hypothèse encore ouverte 170 ans après
Galois — théorie des groupes à 19 ans, mort à 20
Cantor — théorie des ensembles, infinis actuels, seul contre l'establishment
Gödel — théorèmes d'incomplétude, casse le programme de Hilbert
Grothendieck — refonte de la géométrie algébrique, niveau d'abstraction inégalé
Ramanujan — autodidacte indien, formules tombées « du ciel » qu'on prouve encore
Poincaré — topologie, systèmes dynamiques, chaos avant l'heure
Hilbert — formalisation, programme qui domine les maths du 20ème
Leibniz — calcul (en parallèle de Newton), logique, monades
— INFORMATIQUE / LOGIQUE —
Turing — calculabilité, machine universelle, cryptanalyse d'Enigma, morphogenèse
Von Neumann — architecture des ordinateurs, théorie des jeux, automates cellulaires
Shannon — théorie de l'information, fondation de toute communication numérique
Church — lambda-calcul
Kolmogorov — fondations des probabilités modernes, complexité algorithmique
Dijkstra — fondations de l'algorithmique structurée
— BIOLOGIE / MÉDECINE / CHIMIE —
Darwin — sélection naturelle, refonte de toute la biologie
Mendel — génétique, ignoré 35 ans
Pasteur — théorie microbienne, vaccins, refondation de la médecine
Watson + Crick + Franklin — structure de l'ADN
Mendeleïev — table périodique, prédit des éléments inconnus
Lavoisier — refonte de la chimie moderne, méthode quantitative
McClintock — éléments génétiques mobiles, ignorée 30 ans
— PHILOSOPHIE —
Platon — fonde l'idéalisme, tout l'Occident en discute encore 2400 ans après
Aristote — fonde la logique, la biologie, la métaphysique, l'éthique, en parallèle
Kant — refonte de la métaphysique post-Hume, synthèse critique
Nietzsche — généalogie de la morale, mort de Dieu, transvaluation
Wittgenstein — refonte deux fois de la philo du langage, seul
Hegel — dialectique, philosophie de l'histoire
Spinoza — Éthique géométrique, expulsé pour son courage cognitif
Hume — empirisme radical, réveille Kant
Descartes — cogito, géométrie analytique
Heidegger — refonte de l'ontologie
— ÉCONOMIE / SCIENCES SOCIALES —
Adam Smith — fondation de l'économie moderne
Hayek — connaissance dispersée, ordre spontané, prix comme signal
Mises — calcul économique, action humaine
Keynes — refonte macro (qu'on aime ou pas, le saut est réel)
Schumpeter — destruction créatrice, entrepreneur comme moteur
Girard — désir mimétique, bouc émissaire, refonte de l'anthropologie
Weber — éthique protestante, sociologie de la rationalisation
— MUSIQUE —
Bach — architecture contrapuntique inégalée
Mozart — synthèse mélodique et structurelle, mort à 35 ans avec 600 œuvres
Beethoven — refonte de la forme symphonique, pont classique/romantique
Wagner — refonte de l'opéra, harmonie qui ouvre la modernité
Stravinsky — refonte du rythme, Sacre du Printemps comme rupture
Schoenberg — atonalité, dodécaphonisme
— PEINTURE / LITTÉRATURE —
Léonard de Vinci — peinture + ingénierie + anatomie
Michel-Ange — sculpture + peinture + architecture, au sommet de chaque
Picasso — cubisme, refonte du regard pictural
Cézanne — pont vers la modernité, structure géométrique du visible
Dostoïevski — psychologie du sous-sol, profondeur métaphysique
Tolstoï — synthèse romanesque inégalée
Shakespeare — refonte de la langue anglaise et du théâtre
Dante — Commedia, fonde l'italien littéraire
Homère — fondation de toute la littérature occidentale
Proust — refonte du temps romanesque
Kafka — anticipe le 20ème siècle bureaucratique
Borges — refonte du conte philosophique
— INGÉNIERIE / TECH —
Tesla — courant alternatif, moteur induction, fondations de l'électrotech moderne. Vrai génie, scammé par Edison
Frères Wright — vol motorisé, contrefactuel solide
Shockley + Bardeen + Brattain — transistor
Noyce + Kilby — circuit intégré
Engelbart — souris, hypertexte, visioconférence dans une seule démo en 1968
Berners-Lee — Web, donné gratuitement
Linus Torvalds — Linux + Git, deux infrastructures civilisationnelles, seul au début
John Carmack — moteurs 3D temps réel, refonte du jeu vidéo
— ENTREPRENEURS (critère strict) —
Jobs — synthèse design/produit/écosystème non-substituable
Musk — SpaceX seul justifie l'inclusion : NASA avait abandonné le réutilisable. Tesla a forcé la transition EV mondiale
Bezos — AWS spécifiquement, pas le e-commerce (qui arrivait quand même)
Walt Disney — synthèse animation + parc + IP, modèle qu'on copie encore
Henry Ford — chaîne de production
Rockefeller — intégration verticale poussée à un niveau jamais vu
— EXCLUSIONS VOLONTAIRES —
Edison — agrégateur, marketeur, voleur de brevets
Sam Altman — opérateur talentueux, pas inventeur. Le saut technique c'est Sutskever, Radford, l'équipe DeepMind avant
Zuckerberg — exécution brillante mais Facebook arrivait quand même
Gates — bon stratège, OS arrivait de toute façon
Hewlett / Packard — grands constructeurs, pas génies au sens fort
— LE PATTERN —
~100 noms. 2500 ans d'histoire. Un génie non-substituable tous les 25 ans en moyenne, tous domaines confondus.
Sur 108 milliards d'humains ayant jamais vécu : ratio ≈ 1 pour 1 milliard.
C'est l'empirique qui désarme définitivement le « biais du survivant ». Ce n'est pas que les génies sont rares. C'est qu'ils sont rarissimes — et que le monde avance malgré tout à coup de ces gens-là.
显示更多
Japan’s Coast Guard Hydrographic and Oceanographic Department has released a free Minecraft map built from real submarine topographic data.
Players can explore the seabed from Tokyo Bay to the Mariana Trench, including detailed areas such as the Izu Islands and Iwojima ridge.
The terrain is scaled for better navigation, and the map includes a coordinate lookup tool that generates teleport commands to specific real-world locations.
It is available for both Java and Bedrock editions and focuses on exploration rather than survival gameplay.
显示更多
记得Defi Summer 20年到22年这三年时间,大家经常感慨的一句话就是“币圈一天,人间一年”
因为技术迭代太快了,每天都有数不行的新东西出来,几天不看就跟不上节奏
现在这个感觉在币圈彻底消失,在AI那边出现了,每天的新东西就看不完,真的看不完
正好这几天看到圈里讨论Cerebras的帖子多了起来,昨天还看到不少路演信息,毕竟14号要挂牌交易。之前在Amber做分享的时候也单独讲过这个公司(当时用的那页PPT放在文末),所以简单说下我对Cerebras的判断
先说结论:这家公司很有意思,但核心变量不一定是他们造的芯片本身,而是未来AI的workload形态会是成什么样。
先简单说下它是干嘛的,防止有老铁还没看Cerebras
它最核心的技术,就是wafer-scale chip(晶圆级芯片),简单理解就是别人还在用“邮票大小”的芯片,它直接把整片晶圆做成一颗超大处理器,再配上超大 SRAM,把大量数据尽量留在本地高速处理,减少传统GPU最头疼的memory bottleneck。现在海力士美光涨上天就是因为HBM这东西太抢手,Cerebras是直接绕开了对HBM的依赖
很多人看到 Cerebras最牛逼的benchmark:推理速度比GPU快10-15倍,第一反应就是下一个英伟达?!
先别急。
这个benchmark最大的问题,是默认AI的核心需求永远是“更快吐token”。
如果只是人类盯着ChatGPT聊天,这故事其实没那么性感。你每秒吐 30 个 token,我已经快读不过来了。再翻10倍,边际体验提升几乎为零。
真正有意思的是 Agent。
Agent不读字,Agent消费Token。速度直接等于生产力。
一个OpenClaw/Hermes agent,如果要读网页、写计划、调 API、跑代码、报错重试、继续执行,一个任务可能要几十次 inference call。
每次 2 秒,任务就是分钟级体验。
每次 200ms,就是另一个世界。
所以 Cerebras更值得关注的地方,是 AI worker 这条线,而不是单纯的chatbot加速。
但问题来了 - 它的magic来自 wafer-scale + 超大SRAM,本地访问极快。但SRAM这东西有天然 tradeoff,速度快,容量贵,大模型塞不下就必须拆分。
而一旦拆分,chip-to-chip communication 就上来了。
LLM inference里最怕通信的恰恰是 decode 阶段。token 是一个一个往外吐的,每多一次 hop,延迟就是硬加上去,没法隐藏。
所以 Cerebras能不能成,关键根本不在“比 GPU 快几倍”,而是未来 AI 的主流计算形态到底是什么。
1. 时间线一 - 未来几年还是 前沿超大模型一统天下,动不动几千亿甚至万亿参数,所有请求都让超大模型自己处理,那 Nvidia的distributed infra 依然最舒服,Cerebras的速度优势会被通信损耗吃掉很多。
2. 时间线二 - MoE、蒸馏、量化这些技术如果继续快速进步,未来两年70B左右的模型做到今天700B模型 80%-90% 的效果,我一点都不意外。(这里要强烈感谢Deepseek一大波!)
如果世界往这个方向走,故事就变了。
大模型负责 planning / judgement / orchestration。
真正执行任务的大量 worker model 落在 30B-70B 这个区间。
这些模型足够聪明,又刚好能吃到高速本地推理带来的红利。
Agent 世界里,大部分token根本不需要最聪明的大脑。很多工作本质就是执行层体力活:浏览网页、改代码、调工具、retry、继续跑流程。
这个 topology一旦成立,Cerebras就直接进入自己的甜区
3. 时间线三 - 未来推理是端侧为主,用的都是8B,14B的这些小模型,那GPU也能跑的很好,甚至专用的ASIC芯片效率更高,这个场景下Cerebras的优势和护城河也就不高了
换句话说,超大模型云端推理或者超小模型的端侧推理这两个平行宇宙,Cerebras的优势都不够明显,只有主流推理落在32B-70B中等模型这个Size,正好“Big enough to stress GPU memory, Small enough to fit locally” 才是Cerebras最能大展身手的世界
所以我对Cerebras的判断是,300多亿的市值,短期看订单,财务报表这些数据,长期赌的则是未来Agent时代的计算范式到底落在哪个平行宇宙的时间线上
显示更多
Why did xAI hand over a 220,000-GPU cluster to Anthropic?
The technical backdrop to xAI's decision to hand Colossus 1 over to Anthropic in its entirety is more interesting than it appears. xAI deployed more than 220,000 NVIDIA GPUs at its Colossus 1 data center in Memphis. Of these, roughly 150,000 are estimated to be H100s, 50,000 H200s, and 20,000 GB200s. In other words, three different generations of silicon are mixed together inside a single cluster — a "heterogeneous architecture."
For distributed training, however, this configuration is close to a disaster, according to engineers familiar with the setup. In distributed training, 100,000 GPUs must finish a single step simultaneously before the cluster can advance to the next one. Even if the GB200s finish their computation first, the remaining 99,999 chips have to wait for the slower H100s — or for any GPU that has hit a stack-related snag — to catch up. This is known as the straggler effect. The 11% GPU utilization rate (MFU: the share of theoretical FLOPs actually realized) at xAI recently reported by The Information can be read as the numerical fallout of this problem. It stands in stark contrast to the 40%-plus MFU figures achieved by Meta and Google.
The problem runs deeper still. As discussed earlier, NVIDIA's NCCL has traditionally been optimized for a ring topology. It works beautifully at the 1,000–10,000 GPU scale, but once you push into the 100,000-unit range, the latency of data traversing the ring once around becomes punishingly long. GPUs need to churn through computations rapidly to keep MFU high, but while they sit waiting endlessly for data to arrive over the network fabric, more than half of the silicon falls into idle. Google sidestepped this bottleneck with its own custom topology (Google's OCS: Apollo/Palomar), but xAI, by my read, has not yet reached that stage.
Layer Blackwell's (GB200) "power smoothing" issue on top, and the picture comes into focus. According to Zeeshan Patel, formerly in charge of multimodal pre-training at xAI, Blackwell GPUs draw power so aggressively that the chip itself includes a hardware feature for smoothing power delivery. xAI's existing software stack, however, was optimized for Hopper and does not understand the characteristics of the new hardware; when it imposes irregular loads on the chip, the silicon physically destructs — literally melts. That means the modeling stack must be rewritten from scratch, which in turn means scaling is far harder than most of us imagine.
Pulling all of this together points to a single conclusion. xAI judged that training frontier models on Colossus 1 simply was not efficient enough to be worthwhile. It therefore moved its own training workloads wholesale onto Colossus 2, built as a 100% Blackwell homogeneous cluster. Colossus 1, on the other hand — whose mixed architecture is far less crippling for inference, which parallelizes more forgivingly — was leased in its entirety to an Anthropic that desperately needed inference capacity.
Many observers point to what looks like a contradiction: Elon Musk poured enormous capital into building Colossus, only to hand the core asset over to a direct competitor in Anthropic. Others read it as xAI capitulating because it is a "middling frontier lab." But these are surface-level reads.
Look at the numbers and a different picture emerges. xAI today holds roughly 550,000+ GPUs in total (on an H100-equivalent performance basis), and Colossus 1 (220,000 units) accounts for only about 40% of the total available capacity. Colossus 2 — built entirely on Blackwell — is already operational and continuing to expand. Elon kept the all-Blackwell homogeneous cluster (Colossus 2) for himself and leased out the older, mixed-generation Colossus 1. In other words, he handed the pain of rewriting the stack — the MFU-11% debacle — to Anthropic, while keeping his own focus on training the next generation of models.
The real point, then, is this. Elon's objective appears to be positioning ahead of the SpaceXAI IPO at a $1.75 trillion valuation, currently floated for as early as June. The narrative SpaceXAI now needs is that xAI — long the "sore finger" — is not merely a research lab burning cash, but a business with a "neo-cloud" model in the mold of AWS, capable of leasing surplus assets at high yields.
From a cost-of-capital perspective, an "AGI cash incinerator" is far less attractive to investors than a "data-center landlord generating cash."
As noted above, the most important detail of the Colossus 1 lease is that it is for inference, not training. Unlike training, inference requires far less tightly synchronized inter-GPU communication. Even when the chips are heterogeneous, the workload parcels out cleanly across them in parallel. The straggler effect — the chief weakness of a mixed cluster — is essentially neutralized for inference workloads.
Furthermore, with Anthropic occupying all 220,000 GPUs as a single tenant, the network-switch jitter (unanticipated latency) that arises under multi-tenancy disappears. The two sides' technical weaknesses end up complementing each other almost exactly.
One insight follows. As a training cluster mixing H100/H200/GB200, Colossus 1 was an asset that could only deliver an MFU of 11%. The moment it was handed over to a single inference customer, however, that asset transformed into a cash-flow asset rented out at roughly $2.60 per GPU-hour (a weighted average of the lease rates across GPU types). For xAI, what was a "cluster from hell" for training has become a "golden goose" minting $5–6 billion in annual revenue when redeployed for inference. Elon's genius, I would argue, lies not in the model but in this asset-rotation structure.
The weight of that $6 billion becomes clearer when set against xAI's income statement. Annualizing xAI's 1Q26 net loss yields roughly $6 billion in losses per year. The $5–6 billion in annual revenue generated by leasing Colossus 1 to Anthropic, in other words, almost perfectly hedges xAI's loss figure. This single deal effectively pulls xAI to break-even.
Heading into the SpaceXAI IPO, this functions as a core line of financial defense. From a cost-of-capital standpoint, if the image shifts from "research lab burning cash" to "infrastructure tollgate stably printing $6 billion a year," the entire tone of the offering can change.
(May 8, 2026, Mirae Asset Securities)
显示更多
topo生配信ありがとうございました!!
企画会議だったからネクタイとかした👔
The
@FabricFND Public Sale is now live!
Priority Allocations if oversubscribed (40%):
• Min 15% allocated to the Fabric community, users with Platinum Rank on the FABRIC dashboard/app, holders of the Backpack Badge, OG Badge, Developer Badge and Researcher Badge.
• Min 10% allocated to the Kaito community (sKAITO, Yapybara holders, and top CT accounts globally, as well as CN and KR).
• Min 5% allocated to successful referrers under our new referral program.
• Min 5% allocated to the Virtuals community for participants staking >100 veVirtuals (allocation determined by the total veVirtuals participating).
• Min 5% allocated to the Surf community for NFT Pass holders (allocation determined by the number of NFT Pass holders participating).
Key details:
• Valuation: $400m FDV
• Prev Valuation (May 2025): $200M
• Investors include: Pantera Capital, Coinbase Ventures, DCG, Ribbit Capital, Hongshan, Topology, Primitive Ventures, and others.
• Target Raise: $2M
• Maximum Offering: 0.5% of total supply
• Vesting: 100% at TGE
• Min/Max Pledge Size: $1,000-$250,000
• Estimated TGE: Q1 2026
• The sale is open to all jurisdictions permitted under our Terms of Use; not for US persons.
Head to our Capital Launchpad to get involved!
显示更多