注册并分享邀请链接,可获得视频播放与邀请奖励。

与「高良健吾」相关的搜索结果

高良健吾 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 高良健吾 的内容
✼••┈┈┈┈••✼••┈┈┈┈••✼             24年6月 【Prime Video 世界独占配信予定】 もうひと組の夫婦のカタチー   #西野七瀬# #高良健吾  # 『1122 いいふうふ』出演決定!! ✼••┈┈┈┈••✼••┈┈┈┈••✼ #1122いいふうふ# #美月# #志朗#
显示更多
0
13
1.6K
365
转发到社区
おはようございます🩷 昨日は、松平健さん・檀れいさん・コロッケさん・久本雅美さんの4人座長公演。細川徹さん脚本・演出の『大逆転!戦国武将誉賑(かーにばる)』を明治座にて観劇して参りました✨ 笑いあり涙ありサンバあり🪩ロボあり🤣の3時間! 全身全霊でエンタメを浴びて、本当に楽しすぎるひと時でした🥺 🔸この先多少のネタバレ注意🔸 細川さん脚本ということで、さすが。気持ち良いくらいに笑わせてくれて(個人的には“テンハラ”と伊達政宗ポーズ🫳がツボすぎた🤦🏻‍♀️) かと思えば、 ・信長×お濃・秀吉・蘭丸・お市 ・秀吉×ねね ・お濃×蘭丸 の関係性に、盛りなしで7回は涙しました😢 名台詞も多すぎて…緩急エグくて感情ジェットコースター🎢 どの役もキャラが立ちまくりで、それぞれに愛せる要素がたっぷりでそこもなんだかお得なくらいの充実感✨ そして何より、松平健さんが馬にまたがる姿を客席から見られて感無量でした🫏✨ (『暴れん坊将軍』のときは楽屋のモニター越しや場当たりで少し見られるくらいだったので...!) 暴れん坊将軍でご一緒させていただいた松平座長はじめ、丹羽さん・真砂さん・瀬野さん・みのりさん・新井ちゃん、大好きな宇宙ちゃん・みおち、そして今回初めて知ることができた麗しいカムイ龍虎さん等… みなさん本当に魅力的で、正直1回じゃ目が足りませんでした🤦🏻‍♀️ 松平健さんの圧倒的カッコ良さ(とお茶目な面白さ!) 檀れいさんの強くて凛とした美しさとギャルさ、 コロッケさんの宇宙人級の面白さと可愛さ、 久本雅美さんのチャーミングで大胆な存在感! 一気に観ることができてしまってとっても豪華でした💛そしてみなさんが本気で楽しんで演じられているのが伝わってきて、幸せな気持ちになりました🥺🩷✨ ブルーレイとか出ないかな…母と父、おじいちゃんおばあちゃん、親友にも #戦国かーにばる# まじで見せたい🥺 つらつらと本当に長くなりましたが—— 最っっっっっ高でした!!!✨🤩 座長レベルのスパンコール浴衣も×4となると客席から見ると眩しすぎて圧巻だったな…👘🪩💖(北島さんの頭も…) 明治座公演は残すところ3公演ですが 新歌舞伎座公演もありますよ⚔️ ギリギリでしたが観に行けて本当によかった!!良い日だった〜!!!♡ [小話]私があまりに客席で笑ったり泣いたりびっくりしたりするもんだから、帰りにお隣のマダムにあなた誰のファンなの?💋って聞かれて余った銀テープたくさんくださいました🤣🤣(5列目という凄く良い席で観られたので 私も3本くらいキャッチしたんだけど...)やさしい世界🫶
显示更多
0
59
788
49
转发到社区
最近提交ipo的ai芯片的新宠Cerebras火遍硅谷。 其芯片在小模型场景下,其推理速度最高可达 H100 的 20 倍;而超大规模模型(如 400B 参数量级),Cerebras CS-3 系统的单用户响应速度约为 B200 的 2.4 倍 那么cerebras究竟是如何做到的呢? 它是否会成为英伟达杀手呢? 我们需从算力演进的本质开始。 AI算力的演进,正在从“算力本身”转向“通信与系统结构”。在这条演进路径上,Cerebras Systems提供了一种完全不同的答案:不是优化分布式,而是尽可能消灭分布式。 一、两条路线:消灭通信 vs 优化通信 当前AI算力本质上分为两种架构哲学:一条是以NVIDIA为代表的路线: 多芯片(GPU),高速互连(NVLink / CPO),scale-out(横向扩展) 另一条是Cerebras路径:单芯片做到极限(wafer-scale) 片内网络替代跨节点通信,scale-up(纵向放大) 核心区别是:一条在解决“如何连接更多芯片”,另一条在解决“如何不需要连接”。 二、为什么这条路现在才成立 wafer-scale并不是新概念,80年代就有人尝试,90年代商业化失败。原因是: 良率无法承受 没有容错机制 软件无法支撑 行业因此形成共识:小die + 高良率 + 分布式。 Cerebras的突破在于三件事同时成立: 1)容错机制工程化 2)片上网络成熟 3)AI workload匹配(高并行,强同步,通信主导) 本质变化是:从“完美硬件”转向“可容错系统”。 三、性能对比:单点极限 vs 系统扩展 在通信层面,两条路线的优劣非常清晰: 1)片内通信 Cerebras:纯片内 → 延迟最低、能耗最低 CPO:仍有光电转换 → 单点效率:Cerebras更优 2)系统扩展 Cerebras:一旦跨芯片 → 回到通信问题 CPO:带宽可持续扩展 → 系统能力:CPO更优 3)功耗结构 Cerebras:单机功耗极高,但通信极省 GPU+CPO:单点功耗可控,系统效率更平衡 结论很明确: Cerebras赢“单机极限”, CPO赢“系统规模”。 四、适用场景:谁该用cerebras 判断标准可以简化为三个问题: 1)通信是否是瓶颈 2)任务是否可集中 3)结构是否规则 因此,高度适用于大模型训练(dense模型),超长上下文,及部分HPC(PDE、流体等) 这些任务的共性是强耦合 + 高同步 + 高带宽 部分适用于大模型推理(低并发),图计算(结构复杂时优势下降) 而不适用于CPU(通用计算),高并发推理,移动/边缘芯片,实时系统 这些系统的共性:不规则 / 高并发 / 低延迟 五、是否会变成主流 尽管Cerebras在特定场景极强,但主流不会走这条路,原因是: 1)物理约束:功耗密度;信号延迟→ 容错解决不了这些问题 2)经济性:小die良率更高;chiplet更灵活 3)产业路径:TSMC等体系优化方向是模块化,多客户复用而不是超大单体 4)需求侧变化:推理占比远高于训练,多任务、高并发成为主流 六、cerebras的意义 与其说wafer-scale尺寸是重要的趋势,不如说容错设计是会被广泛吸收的哲学 未来可能会出现chiplet级容错,封装级绕路 核心变化是单个硬件不再需要完美,系统负责兜底。 回到最初的问题:Cerebras会不会成为NVIDIA的“杀手”? 答案其实已经很清楚。 它确实在一个关键点上击中了GPU体系的软肋——通信。但行业的选择,并不是非此即彼,而是多个技术突破同时采用:更强的互连、更低的通信能耗、更高的系统级效率。 因此,更准确的判断是Cerebras不是英伟达的杀手,而是英伟达及所有芯片公司可借鉴的最佳实践。 免责声明:本人持有文中提及的标的,观点必然偏颇,非投资建议,投资风险巨大,入场需极度谨慎 (图:一个cerebas芯片)
显示更多
0
14
84
18
转发到社区
华为τ scaling定律营销策略,无非是more than moore的广义摩尔定律的另一种说法而已 作为芯片架构师,我更感兴趣的,还是芯片密度提升,ppt上41%能耗提升和12.7%性能提升,到底是怎么实现的 看完了论文,感觉华为这次创新,本质上是用设计复杂度高 + 高制造成本 + 超前散热,一定程度弥补了工艺差距 ----------------- 1. 华为芯片堆叠带来的等效密度提升,是虚假宣传还是真的,是不是工艺突破?有没有实打实的好处? 等效密度提升的来源,是两片芯片用hybrid bonding技术绑在一起,投影面积理论上能减小一半,但第一代不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292) 这2026第一代等效密度从 2025 年 155 MTr/mm² 跳到 2026 年 238 MTr/mm²,时钟频率也提升了12.7%,功耗比提升41%,表面上看似乎和工艺突破没有什么区别,但有一点重要区别就是leakage power华为从头到尾没有提,只要工艺节点不变,gate leakage、junction leakage 不会因为 3D stacking 自动改善 2030年到2031年的等效密度突变,大概率是来自于2层堆叠到3层堆叠,正如2025到2026年的等效密度突变,时钟频率突变,来自单层到2层折叠 所以从leakage没提这个事来看,这个2031年等效1.4nm,和工艺节点上的突破没有联系。 本质上是用设计复杂度高 + 高成本 + 超前散热 + 超前部署advanced packaging,一定程度弥补了工艺差距 ----------- 那么这样看起来虚假的等效密度提升,有用处吗?好处在哪里? 有的,设计上topology折叠,原来要跑几毫米的水平走线,折叠后变成了几十微米。降低了super buffer/bus的长度,降低了clock tree的深度(clock depth -42%、clock wire -28%),clock skew也带来了改良(-25%),这对动态功耗的改善是实实在在的。部分critical path的缩短,也让时钟频率的上升更容易 所以ppt roadmap上performance的提升,从2025年到2026年上升了12.7%,大部分都是来自于时钟频率的上升(12.7%) 所以好处基本上是topology拆分电路逻辑设计上带来的提升 既然没有实质上的工艺提升,华为芯片堆叠带来等效密度提升的trade off代价在哪里? 三个代价:散热超前发展,设计复杂度高,制造成本变高 最大的代价就是热密度的同步上升,理论上logic on logic都是CPU execution发热最严重的区域,这部分折叠起来相当于功耗密度直接翻倍,但算上41% power efficiency改善,功耗密度仍只比非堆叠方案高40%左右。所以第一代只能对最关键的部分做折叠,大概只占全芯片面积的53%。 所以散热技术也被逼的超前发展,直接上毫米级的MEMS风扇,做micro-cooling fan。 另外的代价就是设计复杂度的变高,critical path的折叠,哪个部分的logic能折叠,折叠之后又会带来从前端到后端的巨大变化要推翻重来 现有的所有EDA工具也不可能支持3D topology,论文自己也承认,full-scale LogicFolding需要全新的3D-native EDA toolchain,把多层stacked dies当作单一连续设计实体处理。哪些logic能折叠、折叠后的inter-die timing closure怎么做,Physical Design(PD)也是难点 制造成本也会更高,被迫超前部署advanced packaging封装,1.5~2um的hybrid bonding + logic on logic都是很有挑战需要显著更高的成本 以前一层wafer做一次光刻;现在两层wafer分别做光刻再bonding,加上hybrid bonding的overlay控制(论文要求<0.5μm)、TSV、KOZ keep-out zone、冗余修复、良率乘法损失,每颗芯片的制造成本和测试成本都要显著上升 -------------------------- 2. Tau scaling这个说法,scaling的到底是什么,这个scaling技术路线是不是一次性的design topology红利?潜力如何?持续进步的空间在哪里? τ Scaling的核心主张是:用时间常数τ替代几何线宽作为全栈优化目标,在器件、电路、芯片、系统四个层级分别压缩特征延迟 公式本身没有任何新物理。"关注瓶颈延迟"是所有架构师都在做的事情。整个行业都知道互联RC是延迟瓶颈,TSMC每一代工艺都在用low-k dielectrics/semi-damascene等手段降RC。把一个众所周知的优化方向包装成"定律"是显然的营销宣传手段,本质是More than Moore的广义摩尔定律的另一种说法 抛开marketing,华为目前所谓RC delay的改善,本质上是芯片堆叠之后,topology距离缩短,让匹配的effective RC都变小,不是RC工艺常数 至于scaling的意思,是能持续发展的一条roadmap。这里的持续改善路径指的是,全芯片堆叠的层数越来越多,从25~30年的2层堆叠,到31年开始的3层堆叠,以后甚至会考虑4层堆叠 第一代折叠技术甚至不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)。2031年的roadmap之所以会出现一个阶跃,就是因为那是从2层折叠到3层折叠的时间点。 但需要注意的是,这个scaling方法的边际效应是逐渐缩小的,折叠成双层的收益是100%,2->3层的收益就只有50%,如果2035年再从3->4层堆叠,收益就只有33%了 另外随着堆叠层数变高,上面说到的三个挑战,散热,设计复杂度,成本,都是越来越大 --------------------- 3. 华为的芯片堆叠,是不是TSMC/AMD已经有的hybrid bonding技术?华为做到的是cache on logic,cache on cache,还是logic on logic,logic on logic最大的散热问题是怎么解决的? 是已经有的技术没错,但同时也是把现有技术指标做到了领先也是真的,3D堆叠本身不是新技术,TSMC的hybrid bonding量产还是6um,华为论文给出Kirin 2026的hybrid bonding pitch是1.5μm 我在刚刚看到华为的堆叠消息之后,第一反应也是怀疑和AMD的3D V cache类似,它主要把 SRAM cache 叠在 已经有的L3 cache 区域上,通常会避免直接堆在最热的 CPU execution logic 上,就是避免散热问题,毕竟SRAM 的功耗密度和热点特性与high-activity logic 不一样,如果最热的logic on logic堆叠,散热恐怕会碰到困难 但看了更多数据之后,clock buffer -56%、clock depth -42%、clock wire -28%,这些只有在core内部的clock distribution被重构时才可能发生。纯SRAM stacking不会碰core内部的clock tree。另外如果只是cache on cache,大概率是不需要单独MEMS微型风扇额外散热的,证据普遍都指向logic on logic方式 华为这个技术的精妙之处在于,logic on logic 折叠之后热密度并没有翻倍,而是因为topology的好处,能耗下降了30%,这样热密度只上升了40~50% 而第一代没有完全把整个最热的execution logic 100%堆叠起来,论文也明确说selectively applied along key critical paths,只是大概53%有选择性关键路径会堆叠起来,可能颗粒度都没有那么好,只是IP堆叠在IP上,那么热密度上升也许能维持在20%以内 但这条道路继续前行,超前发展的散热就成了必然,现在是MEMS微型毫米级的主动散热风扇,紧贴处理器传导效率高,和华为手机一样,散热堆料特别足,而且技术领先同行。 以后怕是要把HBM7/8的微流道散热技术提前用起来了,毕竟HBM7/8要上24+层堆叠,华为很可能要在提前用上下个世代的散热技术了 ------------------------- 4. 从架构角度来说,最重要的问题,华为41%的power efficiency(能耗比)提升,到底是怎么实现的?为什么AMD的3D V cache没有这么大的提升? 首先确定41%的定义。论文只说"SoC performance-core power efficiency improved by 41%",没有给出benchmark名称、Voltage/Freq点、温度条件、功耗边界。但PPT roadmap上有一个关键线索:ISO-Power Performance的数字,2025年是2.75,2026年是3.1,提升12.7% 这个时钟频率提升12.7%完全一致,可以理解为,同功耗的性能提升是12.7%,绝大部分是时钟频率提升带来的 至于能耗比上优化的猜测是,LogicFolding缩短critical path → 在固定Vdd下Fmax从2.75GHz提升到3.1GHz → 这意味着在原来的2.75GHz频率下,有了约12.7%的timing headroom → 这个空间在iso-performance模式下可以换成更低的Vdd 另外的能耗比的提升,可能也来自于电路折叠之后,cache hit latency的下降。从业界经验来看,一般L2/L3 cache hit latency下降10%,CPU整体性能会有至少5%的提升 ppt里显示SRAM latency下降30%,估计会有一部分转化为cache hit latency的下降 AMD的3D V cache没有这么大的提升,主要是因为AMD的底层logic die并没有重新设计,3D cache的延迟latency不仅没有减小反而加大,只是增加了cache大小,收益不如latency下降那么明显。 另一方面,clock skew的下降,critical路径变短,造成电路timing变好,意味着华为可以使用更低的vdd(猜测甚至能低7~8%),以及路径缩短所带来的RC的下降(考虑到clock buffer -56%、wire -28%、SRAM pJ/bit -24%这些数字,比如C_eff下降10~15%合理),再加上clock tree的整体缩短和下降,确实是有可能在部分Voltage/Freq点做到同性能下,做到30%的功耗下降的,而30%的功耗下降换算过来就是41%的power efficiency 对比苹果和高通,每一代手机芯片在iso-power下单核性能一般提升10-20%,iso-performance下功耗一般降30-40%,这是V/F曲线的特性决定的,所以从经验上来说,数字是对的上的。 所以这个power efficiency(能耗比)的提升,从现有的数字上来说可以从topology推导出来是合理的,可能真的和工艺节点没有太大关系 ---------------------------- 5. 这个技术路线有没有可复制性,其他家会不会效仿? 短期内不会大规模效仿,因为性价比和风险收益比来说不好。长期来看,这个方向所有人都在走,只是名字不一样 华为做LogicFolding的根本驱动力是制裁,工艺节点被卡在7nm,只能在封装,散热,和设计层面想办法弥补。华为也为此付出了不小的代价:散热成本,设计复杂度,以及制造成本更高(包括良率)。这是一个被逼出来的路线,不是一个自然选择 其他玩家在用TSMC就能做到正常的经济迭代,是没有必要冒着这个风险,去超前迭代散热技术和设计复杂度的 长期来看,Intel的Foveros、TSMC的SoIC、AMD的MI300的3D stacking都在朝同一个方向走。如果继续追最先进节点的经济性持续恶化,那么"固定一个成熟节点+3D topology optimization"的路线会越来越有吸引力 散热方面,MEMS微型风扇和微流道也会成为未来HBM散热的主流 ------------------- 总结一下,华为这次的创新,绝对是值得尊重的,在制裁环境下,用极高的设计复杂度和成本,在一个被锁定的工艺节点上大胆重新设计,榨出了一次大的topology红利,虽然它有天花板。每多加一层的边际收益递减(堆叠1->2层, 2->3层, 3->4层,提升百分比变小),leakage无法解决,散热越来越难,3D EDA工具链更是全新的挑战。 但这个Tau scaling不是一条可以走十年的指数增长路径,每次爬完一个台阶,下一个台阶更难爬,而且台阶更矮收益更小,华为以后想缩小差距,还得再想想靠什么其他的路线
显示更多
0
175
1.8K
486
转发到社区
根据汉东省委、省政府决定,部分干部职务调整如下👇 • 高育良任省委书记 • 祁同伟任省委常委、副省长 • 肖钢玉任省检察院检察长 • 陈清泉任省高院院长 • 孙连城任京州市市长 • 刘新建任省发改委主任 • 程度任省公安厅常务副厅长 🍉社会领域职务调整: • 赵瑞龙任省政协副主席 • 高小琴任省工商联主席
显示更多
私の2026年用カレンダーができました❣️ カレンダーの撮れ高が良過ぎて紙写真集もできちゃいました💗 ウェブでも販売開始してます☺️💖 💁‍♀️💕
显示更多
0
1
467
30
转发到社区
#岩田華怜フリーマーケット3# 10,000円購入特典の当たりチェキ、撮れ高が良すぎる……… 特に個人的に気に入っている子たちをご紹介🥺 撮影もコメントもがんばったから全部無くなってくれますように🙇‍♀️🙌🏻 私の商品を10,000円ごとの購入で当たりチェキがランダムで1枚ずつ貰えます☺️ 全部かわちいよ🥹
显示更多
0
2
147
17
转发到社区
昨夜のオールナイトニッポンさんで宣伝いただいたこともあり、写真集が各種ランキングで上位になっています。 (なかには1位を獲得しているランキングも!) あらためまして、横山由依さん、宮脇咲良さん、岡田奈々さん、本当にありがとうございました! #宮脇咲良# #高橋朱里# #横山由依# #岡田奈々#
显示更多
0
14
1.1K
296
转发到社区
念願ヨーコ‼️🔥🔥🔥🔥撮れ高ありすぎ良すぎた〜🥲🫶
0
20
1K
77
转发到社区
苹果手机的惨痛教训。 他离开东大,去找阿三生产,结果一塌糊涂。电力没有,人力太差,道路不行,营商环境也不行,产品良率从国际郑的98%,跌到86%。它一年生产上忆个,差12%的合格率,那就麻烦了。因为坏机器要找故障维修,可太麻烦了。 现在苹果又贱嚯嚯回来了。 杠子肯定会说,苹果硬扛行不行?真的不行。因为合格率低,价格就要高,销量就少了。苹果卖七千,你可以承受,卖1.5W,你就受不了了。等于把市场让给竞争对手了。等对手强大了,苹果就活不成了。 说来说去,东大卡住了生产端,以后就是全世界的供货商。好日子就在眼前了。 美美其实看明白了,他千方百计挑小日子去搞事情,就想让我们在期末考试前分心,不理他。只要再努力二十年,我们就是蓝星一哥。
显示更多
0
55
69
6
转发到社区