注册并分享邀请链接,可获得视频播放与邀请奖励。

与「着物」相关的搜索结果

着物 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 着物 的内容
10/13(日)👘着物★撮影会【開催決定‼】 (橋村依里南・胡桃にな・中島由依子・紅羽祐美・西谷麻糸呂) 📢お申込み開始致します。 ご参加お待ちしております。 ✨詳細はこちら @yuikogozen @kure_yumi @kurumi_nina @h__irina_a @mashiron21 #Gスタ# #着物撮影会# #着物# #浅草#
显示更多
美国四月PPI也比较很强,国债收益率还在继续走强,应该怎么看?警惕长时间高油价的灰犀牛问题。昨晚公布的美国四月PPI及核心PPI的同比环比均大幅度超出预期,主要也是能源和运输成本大幅上升导致的。而周二晚上公布cpi略超预期,能源依然是通胀上行首要贡献项,如食品价格受到运输成本与化肥价格上涨的影响而上行,以及除住房外核心服务中机票价格受燃油短缺而涨价。而且特别要注意PPI是CPI的上游,其实暗暗隐含如果高油价持续5月通胀数据估计也不好看。 与此同时,昨晚美国财政部发行30年期美债标售得标利率自07年金融危机以来首次升破5.0%,最终得标利率为5.046%。 把这些问题放在一起,怎么看? 1、现在最大的焦点还是在于高油价的持续时间上,这决定了通胀反弹持续的时间。现在的通胀核心还是霍尔木兹海峡封锁导致的供给问题,供给问题最终还是要供给恢复才行。 伊朗局势军事上再升级的概率不大,能看得出来美伊双方对于动武兴趣不大。但是如果谈判一直没有进展、油价下不来,到了6月全球原油库快消耗完了、夏季又是能源消耗高峰、也是挺要命。 2、现在看伊朗对条件卡得很死、川普要么让军事行动升级要么做出很大让步。军事行动再升级,川普自己也没信心,但他估计也不想做出更大让步。那就继续封锁阿曼海,消耗伊朗经济,倒逼伊朗松口让步,但是想通过经济消耗让伊朗感受到痛苦估计也需要时间。 3、也的看看明天中美联合声明会怎么样以及川普回国后的表态。因为市场之前对中美在伊朗问题上的沟通是有期待的,川普也有此期许,之前这里 1)谈的好,中国表态愿意出手斡旋美伊,自然是利好。 2)如果中美谈的没有超出预期的话,是会打击市场信心的、特别是如果中美没有聊伊朗。 也要做好美国希望中国出面斡旋伊朗,但是中国不接招的局面。 4、而对于国债收益的问题,个人一直的观点就是重点看十年美债收益率的走势,而非二十年和三十年,因为十年美债收益率才是真正的无风险利率。时隔一年,当下美债收益率又回到了25年五六月份的状态,是不是轮回了。 其实去年这个时候 5、而十年美债收益率的走势非常依赖财政部的操作,不知大家是否还记得25年五六月财政部几次出手托底,US10Y几次快要突破4.6%都被打下来了。去年有聊过 而且看上周财政部再融资计划,财政部继续常态化国债回购(Buybacks): 财政部的定期回购操作正在按计划推进。预计在接下来的季度中,将购买高达380亿美元的非活跃长端债券(用于流动性支持),并在1个月至2年期区间内购买高达250亿美元的债券(用于现金管理)。如果真的财政部回购长债、那是会打压长债收益率的。 所以整体上来说对于长债收益率走势个人觉得财政部手段会不少、就看什么时候发力。 6、核心个人还是担心可能会出现这种情况: 伊朗局势也不会有大的升级、双方都不想打了。但是谈也迟迟谈不拢,因为双方条件差距比较大。高油价就这么一直持续,时间越长就不是高油价的事,整个上游资产都要涨价,价格从短期脉冲变成了惯性向上。 担心高油价持续太长时间,变成一个越来越大的灰犀牛。灰犀牛大家都看得到,但灰犀牛越来越大也就是个问题和风险了。 因为持续高油价会导致通胀持续反弹,物价如果变成了惯性向上,美联储新主席沃什上台即使不加息、那么降息的概率会越来越小。 这个最终要看什么时候美伊能谈好。希望谈判不要变成一场马拉松,拖的时间越长通胀持续的风险越大,最终还是会引发市场担忧和避险。 7、对于市场来说 油价走高、长债收益率走高、股市走高,都在同一方向上运动还是有些问题的。 这里关键点就是油价持续走高的问题。 对于美股本身来说、基本面自然是强劲的。之前这里 在周一这里 个人角度,基本面强劲能对冲宏观上的小级别风险。但是如果之后灰犀牛越来越大(高油价持续很长时间、终会在某个时间打压市场),也会带动整体大盘来个小级别回调的、但基本面的强劲也意味着如果跌下去不要慌反倒是再上车布局的好机会。当下涨的越是好,适当部分止盈也是很好的操作。 接下来 1)先看中美谈的怎么样,重点看明天川普访华尾声的联合公报或者声明内容。 2)再看美伊谈判何时能有个结果,标志就是霍尔木兹海峡何时恢复正常,油价能持续回到90以下甚至更低,这才是意味着灰犀牛真正被杀死了。 本条由@bitget_zh赞助,「Bitget 买美股:秒级入场,丝滑交易 」
显示更多
0
17
63
8
转发到社区
第三,重视睡眠的作用。 睡眠不只是为了恢复体力,它也是记忆巩固的关键环节。 白天学习时,大脑的海马体就像日记本一样,记录下短期记忆,但这些记忆非常短暂,只有在睡觉时,它们才会被转移到大脑皮层,转化为长期记忆。 这意味着,为了考试熬夜死记硬背,可能是最糟糕的策略,因为缺乏睡眠会让你很难长期保留这些知识。 所以,学习前后都要把睡眠放在重要位置,确保大脑有足够时间处理和储存信息。 第四,通过重复来强化记忆。 大脑通过神经可塑性来学习,这需要消耗大量能量和物质,比如脂肪酸和蛋白质,用来建立新的神经连接。 如果只学一次,大脑不会愿意耗费这么多能量去建立这些连接,只有不断重复,你才能向大脑细胞发送足够强的信号,告诉它这件事很重要,必须被强化。 所以,不仅要在单次学习中尽可能多地重复,也要采用间隔学习法,把学习内容分散到不同日子里进行,这样能明显提升长期记忆的构建效果。
显示更多
CZ大表哥 @cz_binance 还是太低调了,居然从没坐过兰博基尼! 评朋友的保时捷:坐着不舒服!😂 好在丰田威尔法,已经升级成雷克萨斯新款了。 想起那个沈阳外卖单王,靠送外卖攒下30万,最后全款拿下奥迪A6。 摆脱物欲绑架,是走向自由的第一步。
显示更多
作为一名摸爬滚打了几年的“老韭菜”,看到 Bitget 推出 UEX时,我最直观的感受是:交易终于不再是“割裂”的了。以前手机里要装好几个 App:看资讯、做现货、玩合约,搞链上交互的还得钱包。 但在 Bitget UEX 的始后,最明显的改变是“物理减负”。UEX 像是一个全能导航仪,它把 CeFi的深度和 DeFi的自由缝合在了一起。我不需要在不同的平台间提币、转账、等确认,这种丝滑感对高频交易者来说,省下的不仅仅是手续费,更是抓机会的“逃生时间”。 Bitget UEX 强调的是“全景”。在实际体验中,我最喜欢的是它的数据聚合能力。 以前做决策,我要自己去翻链上数据、看大单流向。在 UEX 里,这些信息被整合成了直观的看板。当我准备开一笔多单时,我能一眼看到当前的资金费率、热度趋势以及链上的流动性变化。这种“上帝视角”让我的交易从“盲人摸象”变成了“按图索骥”。 作为一个真人玩家,我也有疲惫和看不准行情的时候。Bitget 的明星产品“跟单交易”在 UEX 体系下变得更智能了。 我尝试过跟随几位实盘大牛,旅程中最大的感慨是:它降低了心理博弈的成本。 UEX 把这些带单员的胜率、回撤、风格全景式地展示出来,我可以像选基金一样选交易员。有几次深夜行情剧烈波动,我因为设了自动跟单而睡个安稳觉,醒来看到止盈的提醒,那种“被专业人士带着飞”的感觉确实很上头。 在币圈,旅程能否持续,不在于你跑多快,而在于你活多久。 在使用 UEX 的过程中,我会经常关注 Bitget 的保护基金。作为用户,看到储备证明(PoR)定期更新,看到账户安全设置里的各种防护,这种“真人”视角的安心感是实实在在的。无论全景交互做得多花哨,底层的安全才是这段旅程的压舱石。 如果用三个词总结我的 Bitget UEX 旅程,那就是:丝滑、通透、进化。它不再是一个冷冰冰的买卖盘口,而是一个能理解我需求、能连接全生态的金融入口。对于像我这样的普通投资者来说,能在复杂的 Web3 世界里找到一个“一站式”的落脚点,这段旅程本身就很有价值。正如推特所传达的:这不仅是交易的升级,更是我们与加密世界交互方式的重塑。 #BitgetFanStory# #UEX#
显示更多
行业深研:LSA--2nm的隐形分水岭 在先进制程不断逼近物理极限的过程中,“热”成为最核心的变量之一,一点点温度偏差都容易让良率不可接受。 LSA这种退火设备,在先进节点中,它的意义已经发生变化。 前道制造中,离子注入是不可绕开的步骤。它负责将掺杂原子打入硅中,定义器件电学特性,同时不可避免地破坏晶格结构。 退火的作用,是完成两件事:修复晶格、激活掺杂。传统路径是炉管或快速热退火(RTA),通过整体加热晶圆,让原子在高温下重新排列。但问题在于,这种加热是全局的,时间是秒级甚至更长,掺杂在被激活的同时发生扩散,结变宽、边界变钝。 在28nm、14nm时代,这种扩散仍然可以容忍。但进入7nm以下,尤其是从FinFET向GAA(Gate-All-Around)过渡之后,器件尺寸逼近物理极限,任何额外扩散都会直接侵蚀性能窗口。问题从“需要退火”变成“需要一种不带副作用的退火”。 LSA通过在纳秒到微秒级时间内对晶圆表面进行瞬时加热,温度可以高于传统退火,但因为持续时间极短,热扩散被压制在极浅范围内。随后快速冷却,掺杂被激活、晶格被修复,但位置几乎不发生迁移,从而形成极浅且陡峭的结。这直接对应更低漏电、更高开关速度以及更可控的电场分布。 放在器件结构演进中看:FinFET解决的是平面器件失效后的继续缩放问题;GAA通过四面包裹沟道提升栅控能力,使先进节点仍能前进一段;而未来的CFET(Complementary FET),则是在横向无法继续压缩之后,通过垂直堆叠来延续密度提升。在这一过程中,结构不断演进,但约束条件在收紧,而“热预算”逐渐成为最硬的边界。 GAA的核心变化是channel更薄、间距更小、结构更复杂,任何额外的热扩散都会直接改变器件的几何与电学特性。source/drain掺杂会向channel侵入,短沟道效应迅速恶化;nanosheet之间的间距与应力分布被扰动,电场控制能力下降;接触区域本身极小,轻微扩散就会带来显著电阻变化。在这一结构下,热扩散不再是性能损失,而是结构破坏。 这也是传统退火开始失效的原因。你仍然可以用它激活掺杂,但代价是把设计好的器件“热模糊”。最终得到的是一个可以导电但偏离设计窗口的晶体管。 LSA正好解决的是这个矛盾。它将“温度”和“时间”解耦:允许极高温度,但把作用时间压缩到扩散尚未来得及发生的尺度;同时通过线光束扫描,仅作用于表面区域,避免深层结构受热。 高温、极短时间与局部控制这三个条件,在现有热处理方案中几乎只在LSA上同时成立。因此,在FinFET时代,LSA更多是性能增强工具,而到了GAA,它的角色变成“结构可行性工具”。 随着节点进入3nm、2nm甚至更小,热处理不再是一个可以灵活调整的工艺步骤,而成为限制器件设计空间的核心变量。LSA的重要性也因此被重新定价,从“可选项”逐步向“默认配置”转变。 GAA仍将是未来5到8年的主线,但其边际收益正在递减。随着尺寸进入2nm及以下,问题开始转向材料与物理极限:沟道无法无限变薄,接触电阻快速上升,功耗不再按比例下降。行业的答案是转向三维结构,即CFET,将NMOS与PMOS垂直堆叠,在横向受限后向纵向要密度。 但CFET带来一个新的约束:热。GAA仍是单层结构,高温处理的容忍度较高;而在CFET中,任何一次高温工艺都有可能破坏已经完成的另一层结构。传统RTA这种“整片加热”的方式开始失效,因为其热扩散范围过大,无法实现层间隔离。 这使得LSA未来更加重要,其纳秒级时间尺度和纳米级加热深度,使其能够只处理单一层而不影响上下层器件。这种选择性热处理能力,是CFET工艺成立的基础。 这种变化也在重塑竞争格局。从设备层面看,LSA仍是一个多玩家市场,核心厂商包括Veeco Instruments Inc.、Applied Materials以及SCREEN Holdings。SCREEN依靠装机量与历史验证占据主流,Applied Materials凭借平台能力与客户绑定形成系统优势,而Veeco通过LSA在先进节点关键工艺中实现突破。 但真正的竞争不止于设备。第一层是设备厂之间的直接竞争;第二层是工艺路线竞争,即LSA与RTA等技术的取舍;第三层是系统级竞争,即谁能将设备、材料与工艺整合进完整流程。在GAA阶段,这种竞争更多体现在设备性能与参数能力上;而进入CFET阶段,竞争将转向与晶圆厂的深度协同,护城河从单一设备转向“设备+工艺+材料”的系统能力。 从客户导入情况看,Veeco已经完成最关键的一步,其LSA设备已进入头部先进逻辑厂,并在部分工艺中成为量产标准设备。这意味着技术已经通过最严格验证,并具备随产能扩张放量的潜力。但这种导入目前仍集中在局部工艺,而非全面主导。在存储领域,包括DRAM与HBM,LSA仍处于评估阶段,尚未进入大规模量产。 因此,LSA的竞争本质上是,谁能在温度控制、扫描均匀性、应力管理等细节上做得更好,谁就更有机会进入先进节点的标准工艺路径。 总的来说,从FinFET、GAA最后到CFET的演变中,LSA完成了从性能优化工具到结构实现基础的转变。下一阶段真正的瓶颈,不只是结构或对准精度,而是在多层堆叠前提下,是否能够完成掺杂激活与缺陷修复,同时不破坏其他层结构。这将决定先进制程的上限,也决定价值将集中在哪些环节。 免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议dyor
显示更多
财报前瞻VECO 在2026年全球半导体资本设备(WFE)市场步入高度分化的背景下,Veeco Instruments Inc. (VECO) 的定位已从传统的设备供应商演变为支撑人工智能(AI)基础设施和先进制程逻辑芯片的关键技术节点。通过对过去五年企业发展轨迹的审视,可以发现Veeco成功地将其技术护城河从日益商品化的发光二极管(LED)和普通功率器件领域,转移到了极紫外光(EUV)掩模保护、2纳米全环绕栅极(GAA)晶体管退火以及高带宽存储器(HBM)先进封装等高门槛细分市场。这种战略转型不仅重塑了公司的营收结构,也使其在当前的AI投资狂潮中占据了独特的生态位。 当前的半导体设备景观正经历一场由物理限制带来的技术变革。随着摩尔定律在3纳米及以下制程面临巨大的热预算和材料沉积挑战,Veeco持有的激光钉扎退火(LSA)和离子束沉积(IBD)技术成为了代工厂实现性能跃迁的“必选项”。这种行业地位的转变,为解读即将发布的2026年第一季度财报提供了必要的前瞻性视角。 针对即将于2026年5月5日发布的财报,其实绩表现将受限于多种复杂因素的交织作用。首先是AI基础设施带动的先进封装与HBM需求。AI加速器对HBM的需求正处于爆发期,Veeco的湿法处理和光刻工具在HBM的垂直堆叠中具有极高的应用价值。AI相关收入占Veeco总收入的比例预计将从2024年的约10%提升至2026年的20%以上,这种营收结构的改善不仅提升了收入的确定性,也增强了市场对公司长期估值中枢上移的信心。 同时,2纳米制程节点转向下的GAA技术红利也在释放。随着台积电和英特尔等领先代工厂加速向2纳米GAA架构转型,激光退火设备的需求进入了新的上行周期。LSA技术的独特之处在于其极短的脉冲时间和精确的热预算控制,这对于维持2纳米制程中超浅结的稳定性至关重要。这意味着即便在宏观经济波动期间,先进制程的资本支出也表现出更强的防御性。 此外,数据存储业务正处于周期性底部回升阶段。在经历了2025年营收近乎腰斩的低谷后,数据存储业务在2026年显示出明显的复苏迹象。这不仅是营收的补充,更是产能利用率提升的关键。一旦该板块在第一季度确认的订单超出预期,将直接对Non-GAAP每股收益产生显著拉动。而Veeco与Axcelis价值44亿美元的合并案则是目前影响股价的重要变量,虽然短期会有费用体现,但协同效应的预期是市场的核心关注点。 基于对上述因素的分析,Veeco在2026年第一季度实现“双重超预期”(营收与EPS均高于一致预期)的可能性较大。目前市场对Q1的营收预期约为1.6299亿美元,Non-GAAP EPS预期约为0.23美元,毛利率预期在37.5%左右。由于Veeco在2025年底积压了5.55亿美元的高质量订单,且很大一部分属于先进制程设备,只要供应链交付不出现重大中断,营收确认在指引上限附近的可能性较高。 尽管财报超预期概率高,但股价反应取决于更复杂的博弈。看涨逻辑在于指引的上修潜力,目前7.4亿至8亿美元的年度指引被认为过于保守;同时合并进度的正面评论以及HBM与GAA叙事的强化,有望推动估值溢价向行业龙头靠拢。相反,利空风险则来自技术面超买(RSI指标显示超买)、中国市场份额的持续萎缩以及先进封装占比过高可能带来的毛利率压力。 在财报表象之下,必须理解更深层的结构性观察。Veeco与Axcelis的合并本质上是一次“防御性”与“进攻性”并重的战略博弈。 Axcelis在SiC和GaN离子注入领域的统治地位,与Veeco在激光退火和EUV掩模领域的地位结合,将创造出一个能与大市值巨头有效抗衡的实体。 其次,Veeco在EUV掩模空白制造领域的独占性是其估值底座。随着High-NA EUV系统的部署,掩模更换频率提升为Veeco带来了具韧性的“耗材化”设备需求。 最后,第一季度财报中关于“订单转化率”的描述将至关重要,5.55亿美元积压订单的转化速度将是衡量供应链瓶颈或客户需求信号的关键指标。 因此,管理层对交付时间表的评论,其重要性不亚于财务数字本身。 免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议dyor
显示更多
Stanford 用 1500 个工人和 844 个任务告诉 YC:你们 41% 的钱投错了方向 —— 你们投的都是"人们不想要"或"不需要"的东西,而那些"想要但没什么人做"的事正在等待 founders。论文中工人最想自动化的前 10 个职业 Claude 的使用量只有 1.26%,现有 AI 使用反映的是早期采用者偏好,不是真实工作场所需求! WORKBank 把工作任务划分成了四个象限,高渴望和高能力分别表示对 AI 高需求和 AI 目前的能力: 🟢 Green Light(高渴望 + 高能力) 这一象限聚集的工作类型:数据录入 / 文件整理 / 日程安排 / 例行报告生成 / 标准化客服流程 / 重复性信息检索整合(QA、合规类) 🟠 R&D Opportunity(高渴望 + 低能力) 这一象限聚集的工作类型:跨系统协调(涉及多个工具/部门但仍结构化)/ 长上下文研究 + 综合分析 / 项目计划和资源分配 / 中等复杂度的创意设计 这正是创业公司应该看的方向——工人想要 AI 帮忙,但当前 AI 能力还没到位。 🔴 Red Light(低渴望 + 高能力) 这一象限聚集的工作类型:内容创作的最终呈现(艺术/设计/媒体红灯比例 47.6% 全行业最高)/ 客户面对面的关系类(销售/法律咨询/客户管理)/ 决策的"署名"环节(草稿可以 AI 写但谁署名 = 谁负责)/ 创意的灵感判断("这个 ok / 不 ok"的最终拍板) 特征:技术上 AI 能做,但做的人在乎自己的 ownership / 创造性 / 客户关系——这是最容易引发劳动法纠纷和文化抵制的区域。中国法院的两个判例(Zhou 在 QA / Liu 做地图录入)就涉及这一区。 ⚪ Low Priority(低渴望 + 低能力) 这一象限聚集的工作类型:高度物理 / 跨系统手动追踪(电话、纸质文件、人工对接)/ 高度地方化、低标准化(每个城市/机场/银行流程都不同)/ 长尾的客户异常处理 / 受监管约束极强的小批量任务 特征:双低 = 不必做。论文也指出,这些任务人类做得也不开心(已经被流程化得很惨),只是 AI 现阶段也帮不上忙。 最被忽视的发现:同一职业内的不同任务往往横跨多个象限。最典型的例子 - 程序员: - "重构同一模式代码" → 🟢 - "理解模糊的用户需求" → 🟠 - "在客户面前展示 demo 并应对质询" → 🔴 - "在老旧 COBOL 代码里追一个偶发 bug" → ⚪ 这意味着"程序员被 AI 替代"可能是一个伪命题。程序员的某些任务在绿灯区(已被 Claude Code 大量自动化),某些在红灯区(客户沟通、责任归属),某些在 R&D 区(AI 还做不到的复杂理解)。 这也是 Diana / Cat Wu 描述的"PM 与工程师角色融合"在数据上的解释——工作不是被替代,是被重新切分到四个象限里🤔
显示更多
0
10
195
37
转发到社区
强烈推荐大家看看DeepMind CEO Demis的最新判断。 真的,Google DeepMind 的 CEO Demis Hassabis 每一期访谈我觉得值得都花时间看看。这哥们讲东西很实在,而且通俗易懂。 早上边跑步边听完了他和 YC CEO Garry Tan 的最新一期播客。 刚刚把笔记写完,也给大家分享下。 多说一句,好多人问我这种笔记是不是 AI 写的。我说下自己的流程。 我会先完整听完播客,然后用语音输入法把感触尽量充分地讲出来,再让 AI 帮着整理初稿,最后自己逐字修改优化。 如果全部交给 AI 做总结,那等于把思考和理解的能力让渡给了 AI,对自己理解这件事其实没有任何价值。 OK,咱们进正题。 1 Demis 的态度非常明确,现在的大模型范式(大规模预训练 + RLHF + CoT)一定会是 AGI 最终架构的一部分,他不认为这会是条死路。 但要实现 AGI,还有几个关键问题要解决。这几个问题包括:持续学习、长程推理和记忆系统。 先从最容易看到的现象讲起,Context Window。 现在大模型处理长信息,最常用的招就是把 Context Window 一直撑大。一开始 8k,后来 32k,再后来 100 万 Token。听起来很厉害,但本质上是暴力堆砌。 Context Window 其实就相当于人脑里的 Working Memory,工作记忆。人的工作记忆能同时装多少东西?心理学里有个经典数字,7 个左右。背电话号码能记住 7 位上下,再多就溢出了。 大模型呢?已经做到 100 万 Token。 按理说,模型的工作记忆比人大几十万倍,应该比人聪明几十万倍才对。但显然不是。 问题也恰恰就出现在这。把所有东西都塞进 Context Window 里,里面包含了不重要的东西、错的东西、过时的东西。看起来信息很多,其实是一团乱麻。 那人为什么 7 个数字的工作记忆就够用? 因为人脑背后还有另一套机制在工作。我们记得几年前的事,记得童年的事,记得几小时前发生的事。这些都不塞在工作记忆里,而是另一套系统。 具体来说这套系统是海马体,大脑里负责把新知识整合进已有知识库的那个部分。 研究发现,人睡觉的时候,特别是 REM 睡眠阶段,大脑会重放白天重要的片段,让大脑从中学习。新东西在睡觉的过程里,温柔地融进了旧的知识体系。 这个把新东西融进旧知识库的过程,就是持续学习。 模型现在没有这套机制。每一次对话结束,刚学到的东西就会忘记。下次重新打开,还是上次那个模型,没长进。 2 再聊聊长程推理的问题。英文表达是 Long-term Reasoning。我翻译为了长程。 长程推理这个词太抽象了。Demis 讲了一个特别具体的故事,听完会立刻明白他说的是什么。 他说自己喜欢跟 Gemini 下国际象棋。下棋的过程里能看到模型的 thinking trace,也就是它在那里到底想了什么。 然后他发现一件怪事。 模型考虑一步棋的时候,思考链里清清楚楚写着,这步是个昏招。但接下来,它没找到更好的走法,于是又走回这步昏招。 明明知道是错的,还是把错的那一步走出去了。 这个细节比任何 benchmark 数据都说明问题。因为它暴露的是模型缺少对自己思考过程的某种内省能力。 正常人下棋,意识到一步是昏招之后,脑子里会有一个反应,停一下,再想想。停一下、再想想这个能力,模型现在没有。它能在每一步局部判断对错,但没法基于整盘棋的局势去调整整体策略。 这就是长程推理还没搞定的样子。模型可以一步一步往前走,每一步看起来都合理,但走到后面整盘棋的方向其实是错的。它没有那种退回到当前思考的上一层、重新审视一下的能力。 说到底,模型缺的是一种内省。 3 学习、长程推理、记忆,这是 Demis 在播客里点出来的三个 AGI 鸿沟。 除此之外,他还反复提到了创造力。 2016 年 AlphaGo 跟李世石下棋,第二局走出了著名的 Move 37。那一步棋走出来的瞬间,全世界的围棋高手都看呆了。 所有人类几千年下围棋积累的经验都告诉它不该下那里,但 AlphaGo 下了。下完之后大家发现,是一步神来之笔。 很多人觉得,这就是 AI 的创造力来了。 但 Demis 说,对他自己来说,Move 37 只是起点。他真正想看到的是另一件事。AI 能不能发明围棋这件事本身。 这两件事的区别非常关键。 Move 37 是在围棋这个现成的规则里,找到了一步人类没想到的招。但围棋的规则、棋盘的形状、黑白子的对弈方式,是人类发明出来的。AI 在已有的框架里非常厉害,但能不能自己造一个框架,是另外一回事。 Demis 给了一个具体的设想。 如果给 AI 一个高层次的描述。造一个游戏,五分钟能学会规则,要好几辈子才能精通,棋局有审美,一下午能下完一局。AI 能不能根据这个描述,自己倒推出围棋? 目前做不到。 为了把这件事讲得更清楚,Demis 还提了一个测试,他自己叫爱因斯坦测试。 用 1901 年人类已有的全部知识训练一个模型,看它能不能在 1905 年那个时间点,自己推出狭义相对论。 爱因斯坦在 1905 年那一年里,连写了几篇改变物理学的论文,后来叫爱因斯坦奇迹年。那些工作不是从已有的物理学论文里通过拼接得到的,是基于已有材料做了一次全新的概念跳跃。 爱因斯坦测试想问的就是这件事。AI 能不能做这种跳跃。 目前的大模型主要在做两件事,pattern matching 和 extrapolation。一个是从大量数据里找规律,一个是把规律往外延伸一点。但发现新东西需要的是类比推理的能力。从一个领域里抽出深层结构,搬到另一个全新的领域去用。 这个能力,模型现在还没有。也可能是有,但用法不对所以激发不出来。 4 除此之外,Demis 还分享了一个让我特别出乎意料的判断,他说未来 6 到 12 个月,真正的价值不在更大的模型,在更小的模型。 这一部分内容我反复听了好几次,确实突破我的已有认知。 不知道大家的想法,反正我自己,这一年来并没有怎么关注小模型的进展。毕竟行业的焦点就是把模型做大嘛。 那小模型的价值到底在哪? 最直接的是成本。同样一个任务,小模型的推理价格可能只是前沿模型的十分之一甚至更少。 但 Demis 说,比成本更重要的其实是速度。 这里有一个前提得先说清楚。Demis 不是在说速度可以替代智能。 他的原话是,当小模型的能力已经达到前沿模型的 90% 到 95%,也就是已经相当不错的时候,剩下那 5% 到 10% 的能力差距,比不上速度带来的好处。 比如现在工程师用 AI 写代码,已经形成了一种新的工作节奏。一个想法冒出来,几秒之内就能看到结果,不行就改,再不行再改。 这个一改再改的循环跑得越快,做出来的东西就越好。如果每次调用都要等十秒,整个工作流就被打断了。 更关键的是,快到一定程度,工程师在这种节奏里能进入心流。一个想法、一次尝试、一个反馈、再来一个想法,思维不被打断。 这件事写过代码的人都懂,进入心流和频繁掉出心流,产出的差距是数量级的。 Agent 也是同样的逻辑。一个 Agent 跑完一个任务可能要调几十次模型,每次慢一秒,整个任务就慢一分钟。慢到一定程度,Agent 就从一个能用的东西变成鸡肋。 小模型不是大模型的廉价替代品。有些事只有小模型能做。 比如手机、眼镜、家用机器人,需要的就是一个能在本地跑起来的模型。本地跑除了反应快,还有一个特别重要的好处,隐私。 家里机器人看到的视频、听到的对话,全部在设备本地处理,根本不上云。这件事对很多用户来说不是加分项,是底线。 成本、速度、边缘部署,这是小模型的价值。 5 讲完小模型的价值,接下来一个更关键的问题是,能力被压到这么小的参数里,会不会有上限? Demis 的判断是,目前没看到信息密度有任何理论上限。小模型的智能天花板还远没看到。 支撑这个判断的,是 DeepMind 在蒸馏这件事上的积累。蒸馏简单说就是先训练一个超大的模型,然后用这个超大模型去教一个小模型。教完之后,小模型用极少的参数,能复现原来 95% 以上的能力。 为什么 DeepMind 这么重视蒸馏?因为要把 AI 能力放进谷歌的头部产品中,前提是低延迟、低成本。前沿模型再强,每次推理花几秒钟、花几毛钱...这条路,恐怕很难走得通。 一个前沿模型发布之后,6 到 12 个月内,他们就能把这个模型的能力蒸馏到边缘设备能跑的小模型上去。这个时间表比很多人想的要快。 在很多场景中,小模型和大模型会相互配合。 举个例子,一个端到端的智能助手,绝大部分日常任务在本地的小模型上跑。智能眼镜看到的画面、家里机器人听到的对话、手机里的私人助理,模型直接在设备里读懂,不需要往云端传一遍。 只有遇到特别复杂、本地搞不定的问题,才向云端的前沿模型发起请求。 也就是说小模型在边缘做主力,前沿模型在云端做后援。 不过,这个构想对小模型的要求也比较高,它不能只会处理文字,还得能理解物理世界。 这就是为什么 Gemini 从一开始就坚持多模态,不光处理文字,也处理图像、视频、声音。 一开始这么做比只做文本要难得多,但眼镜也好,机器人也好,需要的是一个能看懂周围世界的模型,不是一个只会聊天的模型。 讲到这里,小模型这条路的轮廓就完全清楚了。它独立成立,不是前沿模型的廉价替代品,而是另一条同样重要的路。 嗯,很有启发。
显示更多
0
48
1.2K
239
转发到社区
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
显示更多
0
58
992
298
转发到社区