注册并分享邀请链接,可获得视频播放与邀请奖励。

与「ALPHAZ」相关的搜索结果

ALPHAZ 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 ALPHAZ 的内容
🧵 Deli AutoResearch SKILL is now officially open source! 🎉 Alongside it, we’re dropping our 4th survey paper — this time on Self-play. Inspired by AlphaZero, we got a powerful insight: prior knowledge doesn’t always lift the ceiling. Models can discover more globally optimal solutions just by playing against themselves. The biggest change in this paper? For the first time, the AutoResearch Agent autonomously planned GPU experiments — and submitted actual RL runs on the DeepSeek 285B model. The entire RL pipeline — experiment design, code writing, running, debugging, and conclusion summarization — was 100% automated, with zero human intervention from me. This was incredibly difficult, but an incredibly important step. GRPO is the tool being called by the AutoResearch Agent here. We see this as the beginning of our Continual Learning research journey. 🚀 As always, this is my personal research project, unaffiliated with any organization. All views are my own. #AI# #ReinforcementLearning# #SelfPlay# #OpenSource# #AutoML# #ContinualLearning# #DeepSeek#
显示更多
0
15
1.1K
168
转发到社区
ALPHAZ! XG is so excited to be coming back to Hong Kong! 🤩 Tickets are on sale now, snag yours now before they're all gone. See you at 𝙓𝙂 𝙒𝙊𝙍𝙇𝘿 𝙏𝙊𝙐𝙍: 𝙏𝙃𝙀 𝘾𝙊𝙍𝙀 𝙞𝙣 𝙃𝙤𝙣𝙜 𝙆𝙤𝙣𝙜 - AsiaWorld-Expo, Hall 10 on 2 August (Sun).
显示更多
路人甲视角:Alpha 系列里最值得普通人研究的,其实是 AlphaTensor 昨晚我研究了一晚上的 AlphaTensor。其实这事两年前就该做了,只是那时候还没意识到“结构文明”才是智能演化的真正方向。 我现在看 AlphaTensor 的介绍视频、论文解读,很多内容都被包装在高学科密度的术语和公式里,很容易把人劝退。我看能用通俗语言讲懂不。 AlphaTensor 是 Alpha 系列中最值得普通人研究的一个:它继承了 AlphaZero 的博弈搜索逻辑,又为 AlphaDev 开辟了结构压缩和路径优化的方向,真正完成了“从求解函数到建构结构”的范式转变。简单说,它是用玩游戏的方式去“发明更快的矩阵乘法算法”,不是写公式,而是组合结构路径,最后的结果比 Strassen 算法快了整整两步,打破了 50 年没人能破的纪录。 更关键的是:只要你学过线性代数、没挂科,你就能看懂问题本身。是一次让人切实体验到“结构智能”的技术跃迁。 AlphaTensor 的输出没有显式公式,它是一个可以执行的结构组合表,一个被强化学习玩出来的路径构造,而它居然能比人类写出来的最优方程还快。这意味着,未来智能的主角不再是“公式”,而是“结构”;不是“表达规律”,而是“拼装路径”。 我们可能会回过头来看,AlphaTensor 是一切结构文明的开端——它不靠理解,不靠推理,只靠压缩张力场、逐步构造路径,就能建出一个比你更聪明的乘法器。这是一次真正的科技史级别的范式飞跃。 (1/n)
显示更多
Demis Hassabis 神级天才的思维脉络 在人工智能与科学交汇的前沿,Demis Hassabis 提出了一条极具颠覆性的路径。他认为,自然界并非我们表象中那般混乱无序,而是隐藏着深层次的结构性秩序。理解世界,不必总是从演绎推理和方程建立起步,而应从感知数据中压缩出可调度的结构,借此进行预测和推演,进而反向建构理论。这一主张不仅重塑了科学研究的技术路径,更触动了我们对知识建构本身的认知方式。 一、结构压缩优先:从 Veo 看理解的重定义 Demis 的这一认知在 DeepMind 的视频生成模型 Veo 上得到了直观体现。Veo 模型并未学习任何显式的物理方程,却能够凭借观察大量自然视频数据,在没有编程预设规则的前提下,生成逼真且具有高度物理一致性的动态画面,例如汽车驶过积水时水花飞溅、玻璃破碎后的细节反馈。这是一种典型的“现象压缩式理解”路径:AI 通过在高熵视频流中提取出稳定可复用的结构压痕,实现对物理现象的预测能力。 我们由此必须追问:如果一个模型能够在不知晓动量守恒的前提下准确预测水花的下一帧状态,它是否“理解了物理”?Demis 的回答是明确的——理解的核心,不在于是否掌握方程,而在于是否能压缩现象为结构,并借此形成调度性强的预测路径。 二、信息先于物质:可学习宇宙假说 在这一架构下,Demis 提出了他的核心哲学命题:信息先于物质。即,物理世界的本质是一种信息性结构,而非能量或粒子。我们所观察到的规律,其底层机制是信息的组织方式。 他进一步提出“可学习宇宙假说”:任何自然界中反复出现的模式,都存在一个可被经典图灵机有效压缩与学习的结构路径。这意味着,我们无需总是从第一性原理出发建构模型,而可以通过 AI 对大量数据的结构化吸收,形成一种预测优先的认知框架。 三、自然流形:结构稀疏的低维空间 AlphaFold 的成功证明了这一哲学判断的工程可行性。蛋白质的理论构象空间高达 10^300,传统方法根本无法穷举。然而自然界中,蛋白质往往能在毫秒级自动完成折叠,说明它们并不是随机地在空间中漂移,而是沿着一条被“压缩演化”的低维流形展开。 Demis 将这种现象称作“自然偏好的低维结构空间”,也就是流形(manifold)。AI 的任务不再是模拟所有路径,而是在数据中采集这一稀疏、稳定、可导航的结构区域。这使得 AI 不必理解所有机制,便能通过结构导航完成预测,从而以压缩路径替代穷举机制。 四、AI First Science:新范式的科研工作流 在 2024 年诺贝尔奖演讲中,Demis 明确提出了“AI First Science”的科研范式:不再从理论建模出发,而是先训练模型,让其学习压缩结构;接着由这些结构驱动调度,再反向解释形成机制。 他提出的科学工作流如下:训练 → 压缩 → 调度 → 解释。此路径彻底颠覆了过去数百年“建模—推导—验证”的科学流程,转而采用“预测—拟合—反演”的演化方法。 在这个范式中,梯度的含义也发生转变。它不再是传统微积分中的导数,而是指数据中隐含的可学习方向信号。这种梯度可能是离散的、统计的、甚至语义的,但它们都构成了一种“方向向量场”,AI 可以在其中找到“走了会变好”的结构路径。 五、结构提出者:AI 从解答者变为猜想引擎 更为震撼的是,Demis 不满足于让 AI 解题,而是要它成为结构猜想的提出者。AlphaGo 的第 37 手,是这一目标的原点:一手无人类预期的棋步,首次展现 AI 提出结构创新的能力。从那一刻起,Demis 开始布局他的“结构发现引擎”路线图。 这一进化路径包括 AlphaGo、AlphaZero、AlphaFold、AlphaTensor、AlphaDev、AlphaGeometry、AlphaProof,每一个系统都试图在不同领域内自动识别高维结构中的压缩路径,并从中提出新的结构问题、优化路径甚至定理猜想。 Demis 将这种 AI 的猜想能力界定为“sweet spot”——即 AI 所提出的结构刚好超出人类直觉边界,但仍在可理解、可验证的范围内。这是 AI 与人类协作的最佳认知区:AI 提出、预测、压缩,人类验证、解释、整合。 六、结构文明的起点:聪明的普通人可及 更令人欣慰的是,Demis 并未将这场科学革命锁死在象牙塔,而是以开源的方式将这些结构性工具逐步释放至公众。AlphaFold 的结构数据库向全球开放,AlphaDev 的算法进入 LLVM 编译器,AlphaProof 与 Lean 数学社区共同构建定理验证系统,这一切都在昭示一个转折点的到来:提出问题,人人可为。 这也意味着,科学创意将首次脱离“天才垄断”,进入“结构协作”。未来的科研者不再需要天赋异禀或名校背书,而是要具备三种能力:理解结构、调度工具、表达路径。Demis 本人就是这种跨界结构型认知者的代表——他从游戏设计师走来,用压缩思维与策略构建,引领科学认知系统的结构重构。 今天的科学,不再是“高不可攀的圣殿”,而是“结构化的工作流”。理解 Demis 的思维路径,就是提前参与这场认知文明的革命。从 Move 37 到 Conjecture Engine,从图灵机到猜想母体,我们已抵达一个时代的起点——在这个时代里,结构就是语言,猜想就是代码,科学的未来,属于会调度结构的你。
显示更多
0
13
135
36
转发到社区
David Silver在DeepMind负责Reinforcement Learning(RL,强化学习),是AlphaGo团队的核心。他最近有个分享,有些启发: 学习的三个阶段: 1. 基于现有知识的学习 2. 基于人类已有经验的强化学习 3. 忘记人类经验的自我学习 每个更高阶的学习,都在不断丢掉旧的知识,旧的经验。 更具体而言: 1. 当前LLM主流还是Data驱动。问题在于1)Data会成为一个天花板,2)模型会和当前的Data尽量拟合而自身的学习能力被弱化。3)LLM默认会证明自己是对的,所以经常有幻觉的产生。而强化学习是让AI在实际使用中获得数据,反馈,它不试图证明自己是对的,而是不断地在真实世界中试错来验证。 2. 如果没有强化学习,那么AlphaGo只会学会人类的技巧,而没有它第二局超越人类经验的第37手。经验比知识更重要。 3. 而AlphaZero是AlphaGo的下一代,证明了忘记人类经验学习的价值。AlphaZero从完全随机的行为开始,从系统自身生成的经验中学习的方式,使得 AlphaZero 从零开始达到了并超越了人类在围棋和国际象棋等领域的最高水平。 4. 反馈有两种,基于人类经验的反馈(RLHF)和真实世界的反馈。前者是人类事先根据经验设定的标准,但它在真实世界仍然可能是错的。而后者是真正通过行动在真实世界得到的反馈。这是AlphaZero超越AlphaGo的背后原理。 5. David Silver提出“Reward is enough”。我们训练AI的职责主要是把目标和我们的价值观对齐融合在设定的奖励标准中。比如我们设定一个标准,奖励AI让我们变得更健康的策略。这个符合我们的需求,而且这里并不是具体的目标,而是模糊的高层目标——如何变得健康。AI系统自己去优化具体的目标(心率,BMI等),并根据真实的反馈调整具体目标的组合。 6. Anthropic以及一些团队证明了基础模型仍然有提升的空间,因此,Data驱动和强化学习驱动会是两个持续演进的双螺旋,而强化学习会越来越重要。 进一步: 1. 从哲学上讲,在时间之矢方向上的Randomness和熵增是确定的,因而我们无法完全从既有的数据和经验学习,我们只有不停地探索,无论是AI还是我们自身。 2. 我们几乎所有在AI训练中的启示都适用于我们对下一代的教育。
显示更多
0
38
23
10
转发到社区
Human generated data has fueled incredible AI progress, but what comes next? 📈 On the latest episode of our podcast, @FryRsquared and David Silver, VP of Reinforcement Learning, talk about how we could move from the era of relying on human data to one where AI could learn for itself. Watch now → 00:00 Introduction 01:50 Era of experience 03:45 AlphaZero 10:19 Move 37 15:20 Reinforcement learning and human feedback 24:30 AlphaProof 29:50 Math Olympiads 35:00 Experience based methods 42:56 Hannah's reflections 44:00 Fan Hui joins
显示更多
0
46
1.2K
267
转发到社区
For non-geometry, it uses AlphaProof, which can create proofs in Lean. 🧮 It couples a pre-trained language model with the AlphaZero reinforcement learning algorithm, which previously taught itself to master games like chess, shogi and Go.
显示更多
0
6
303
24
转发到社区
a16z. Paradigm. Polychain. Multicoin. Smart money is already in. AlphaWire tracks the backers, wallets, funding signals, and gaming narrative before the timeline catches up. See what top funds are positioning around.
显示更多
0
4
160
8
转发到社区
免费开源的AI交易量化神器,直接用聊天就能交易! Vibe-Trading:你的个人AI交易代理香港大学 HKUDS 团队出品! 用自然语言就能让AI帮你: 研究市场 + 生成策略 一键跑回测 + 出报告 多Agent团队协作(量化、风控、加密专员等) 内置 456个量化Alpha,支持全球股票、加密货币、期货等。 还能安全接真实券商(只读 + 授权 + 杀手开关保护)。 一行命令安装超丝滑:pip install vibe-trading-ai Web界面也非常好用!对AI量化交易感兴趣的,强烈推荐这个项目。 工具分享非投资经验。
显示更多
0
28
40
8
转发到社区
📢 #KuCoin# Alpha has Listed Token: 🗓 Trading starts now 🔁 Pair: UwU/USDT 🌐 Network: Solana Chain Trade here: Discover early stage innovation and start trading in the KuCoin Alpha Zone. 👉 #KuCoin# #KuCoinAlpha# #UwU#
显示更多