搜索 ContinualLearning 相关的推文与用户

Deli Chen@victor207755822

2026.06.17 14:52

🧵 Deli AutoResearch SKILL is now officially open source! 🎉 Alongside it, we’re dropping our 4th survey paper — this time on Self-play. Inspired by AlphaZero, we got a powerful insight: prior knowledge doesn’t always lift the ceiling. Models can discover more globally optimal solutions just by playing against themselves. The biggest change in this paper? For the first time, the AutoResearch Agent autonomously planned GPU experiments — and submitted actual RL runs on the DeepSeek 285B model. The entire RL pipeline — experiment design, code writing, running, debugging, and conclusion summarization — was 100% automated, with zero human intervention from me. This was incredibly difficult, but an incredibly important step. GRPO is the tool being called by the AutoResearch Agent here. We see this as the beginning of our Continual Learning research journey. 🚀 As always, this is my personal research project, unaffiliated with any organization. All views are my own. #AI# #ReinforcementLearning# #SelfPlay# #OpenSource# #AutoML# #ContinualLearning# #DeepSeek#

显示更多

0

15

1.1K

168

转发到社区

Joanne Jang@joannejang

2026.05.18 18:23

learned this quote from 2023 is making rounds -- i actually don't think this is true anymore in 2026! The model should be invisible. i expect us to flip back to ux in the form of agent behavior + continual learning loops; and the alpha is in making models feel natural and as invisible as possible.

显示更多

0

17

291

17

转发到社区

Dan McAteer@daniel_mac8

2026.05.16 20:01

guys, I think memory gets cracked in 2026 then infinite context and memory + infinite context = continual learning you can feel it in the air

0

74

1.2K

128

转发到社区

Google DeepMind@GoogleDeepMind

2026.05.06 13:04

We’re partnering with the developers of @EveOnline to explore the next frontier of AI research in games. EVE's complex, player-driven universe is the perfect safe sandbox to test agents on memory, continual learning, and long-term planning. Find out more →

显示更多

0

130

1.9K

225

转发到社区

Awni Hannun@awnihannun

2026.03.05 21:36

I've been thinking a bit about continual learning recently, especially as it relates to long-running agents (and running a few toy experiments with MLX). The status quo of prompt compaction coupled with recursive sub-agents is actually remarkably effective. Seems like we can go pretty far with this. (Prompt compaction = when the context window gets close to full, model generates a shorter summary, then start from scratch using the summary. Recursive sub-agents = decompose tasks into smaller tasks to deal with finite context windows) Recursive sub-agents will probably always be useful. But prompt compaction seems like a bit of an inefficient (though highly effective) hack. The are two other alternatives I know of 1. online fine-tuning and 2. memory based techniques. Online fine-tuning: train some LoRA adapters on data the model encounters during deployment. I'm less bullish on this in general. Aside from the engineering challenges of deploying custom models / adapters for each use case / user there are a some fundamental issues: - Online fine-tuning is inherently unstable. If you train on data in the target domain you can catastrophically destroy capabilities that you don't target. One way around this is to keep a mixed dataset with the new and the old. But this gets pretty complicated pretty quickly. - What does the data even look like for online fine tuning? Do you generate Q/A pairs based on the target domain to train the model? You also have the problem prioritizing information in the data mixture given finite capacity. Memory based techniques: basically a policy for keeping useful memory around and discarding what is not needed. This feels much more like how humans retain information: "use it or lose it". You only need a few things for this to work: - An eviction/retention policy. Something like "keep a memory if it has been accessed at least once in the last 10k tokens". - The policy needs to be efficiently computable - A place for the model to store and access long-term memory. Maybe a sparsely accessed KV cache would be sufficient. But for efficient access to a large memory a hierarchical data structure might be beter.

显示更多

0

85

1.1K

83

转发到社区

宝玉@dotey

2026.01.21 05:03

Demis Hassabis 达沃斯访谈：比工业革命大 100 倍的变革视频地址： 2026 年 1 月，达沃斯世界经济论坛期间，Bloomberg 主持人 Emily Chang 采访了 Google DeepMind CEO Demis Hassabis。这位诺贝尔奖得主用“每周 100 小时、每年 50 周”描述自己过去几年的工作状态，并给出了一个惊人的判断：AI 带来的变革将是工业革命的 10 倍规模、10 倍速度。这场访谈覆盖了 AI 领域几乎所有热门议题：AGI 时间线、中国竞争、机器人突破、就业冲击、是否应该暂停，以及后稀缺世界的哲学困境。以下是访谈的完整整理。 --- 【1】Google 的势头回归 Emily Chang 开门见山：Gemini 3 发布了，据说 OpenAI 内部宣布了“code red”——Google 是不是找回了状态？【编者注】Gemini 3 Pro 于 2025 年 11 月 18 日发布，是 Google 迄今最强的 AI 模型，在推理、多模态理解和编程能力上均有显著提升。12 月 17 日，Google 又推出了更快更便宜的 Gemini 3 Flash，直接替换 Gemini app 的默认模型。这一系列发布引发了 OpenAI 内部的紧张反应——三年前 ChatGPT 发布时，Google 内部也曾宣布过类似的“code red”。 Hassabis 回应说，过去一年确实是“非常艰苦的一年”，团队付出了巨大努力让模型重新回到最前沿。他特别提到 Gemini 3 和图像生成模型 Imagen 的表现让他们“非常满意”。 “我们也适应了这个新世界——快速发布，把创业公司的能量带到我们所做的事情中。” 当被问到外界是否低估了 Google 时，Hassabis 说他不确定，但 Google 一直具备所有必要的条件。“过去十年，Google 和 DeepMind 加在一起，发明了现代 AI 行业所依赖的大约 90% 的突破性技术。”他列举了 Transformer、AlphaGo、深度强化学习等例子。 “我们有这些不可思议的产品触达数十亿用户——从搜索到邮箱到 Chrome——它们天然适合 AI。只是需要把这一切组织到一起。我们在过去几年做到了，虽然还有很多工作要做，但已经开始看到成果了。” --- 【2】全栈优势能维持多久？ Emily Chang 追问：如果你认为自己有优势，这个优势有多大？能维持多久？ Hassabis 的回答很直接：一切从研究开始。模型的前沿水平是最重要的，这是 Google 和 DeepMind 合并后首先聚焦的方向。 “我认为我们是唯一拥有完整技术栈的组织——从 TPU 和硬件、数据中心、云业务、前沿实验室，到所有这些天然适合 AI 的产品。从第一性原理来看，我们理应做得非常好。而且我认为未来还有很大的提升空间。” --- 【3】AI CEO 的日常：凌晨 1 点到 4 点的深度思考 Emily Chang 说她读到 Hassabis 大部分深度思考都发生在凌晨 1 点到 4 点之间。他确认了这一点。 “你有没有感到舒服过？”她问。 “从来没有。”Hassabis 说，“过去三四年一直是难以置信的高强度。每周 100 小时，每年 50 周，这就是常态。” 他认为这是处于“科技史上可能最激烈的竞争”前沿所必需的。“商业上、科学上，再加上所有关于 AGI 的兴奋……用 AI 加速科学发现一直是我的热情所在。这是我毕生的梦想，我为此工作了一辈子。很难入睡，因为有太多工作要做，同时又有太多激动人心的事情要探索和推进。” --- 【4】机器人：突破时刻还需要 18-24 个月 Emily Chang 提到 Gemini 已经被集成到人形机器人中，问物理世界的“AlphaFold 时刻”是否已经到来。【编者注】2026 年 1 月 5 日，在 CES 展会上，Boston Dynamics、Google DeepMind 和 Hyundai 宣布了一项重大合作。Boston Dynamics 将把 DeepMind 的 Gemini Robotics 基础模型整合到其 Atlas 人形机器人中，首先应用于 Hyundai 的汽车制造工厂。这是 Google 2013 年收购又于 2017 年出售 Boston Dynamics 之后，双方的首次重要合作。 Hassabis 说他过去一年花了大量时间仔细研究机器人领域。“我确实认为我们正处于物理智能突破的临界点。但我仍然认为还需要大约 18 个月到 2 年的时间，需要做更多研究。” 他解释说，Gemini 从一开始就被设计成多模态的，能够理解物理世界，原因之一是可以构建一个存在于眼镜或手机上的通用助手，理解你周围的世界；另一个用途就是机器人。 “那么物理世界的突破时刻会是什么样子？我认为是机器人能够可靠地在现实世界中完成有用的任务。” 他列举了几个阻碍因素。首先是算法还不够稳健，需要比 LLM 更少的数据就能工作。其次，也是让 Hassabis 感触最深的，是硬件问题——特别是机械手。 “当你仔细研究机器人时，你会对人类的手产生一种全新的敬畏。进化设计得太精妙了。要匹配人手的可靠性、力量和灵巧性是非常困难的。” 他提到了与 Boston Dynamics 和 Hyundai 的合作，将在汽车制造领域进行原型测试。“一两年后，我们可能会有一些真正令人印象深刻的展示，然后可以规模化部署。” --- 【5】中国与 DeepSeek：西方反应过度了 Emily Chang 说，一年前 DeepSeek 的出现对西方来说似乎是灾难性的，但现在中国似乎安静了下来。Hassabis 对中国竞争的看法有变化吗？ Hassabis 的回答很坦率：“没有。我一开始就不认为那是灾难性的。我认为西方的反应是大规模过度反应（massive overreaction）。” 他承认 DeepSeek 展示了中国公司的能力，但认为一些说法被夸大了。“关于他们使用的计算量非常少之类的说法被过度夸大了，因为他们依赖了一些西方模型，也在一些领先西方模型的输出上做了微调。所以这不是从零开始的。” 他认为字节跳动可能是中国最有能力的 AI 公司，“可能只落后 6 个月，而不是一两年。” 但 Hassabis 提出了一个关键问题：“到目前为止，中国公司能否超越前沿进行创新，这还有待观察。他们非常擅长追赶前沿，越来越有能力，但我认为他们还没有展示出能够超越前沿进行创新的能力。” --- 【6】AGI 时间线：2030 年 50% 概率，但标准比别人高 Emily Chang 说 Hassabis 帮助定义了 AGI，并且曾表示 2030 年之前有 50% 的概率实现。这个时间线还成立吗？ “是的。”他说。 “AGI 对你来说还是一个有用的目标吗？” Hassabis 说是的，虽然他的时间线比一些同行更长，但那是因为他的标准更高。“我说的是一个系统能够展现人类拥有的所有认知能力。我认为我们距离那还很远。” 他举了科学创造力的例子：“不只是解决一个猜想或科学问题，而是能够首先提出假设或问题。任何科学家都知道，找到正确的问题往往比找到答案困难得多。” 他明确表示当前系统“肯定还不具备这种能力”，未来会有，但不清楚还需要什么。他还提到了“持续学习”（continual learning）——系统需要能够在线学习，超越它们被训练的内容，在现实世界中即时学习。“在我看来，还有相当多的关键能力是缺失的。” --- 【7】AI 对就业的影响：比 Dario Amodei 乐观，但承认冲击终将到来 Emily Chang 提到 Anthropic CEO Dario Amodei 当天早些时候在达沃斯说 AI 可能在 5 年内消灭 50% 的入门级白领工作。Hassabis 同意吗？【编者注】Dario Amodei 在 2025 年 5 月接受 Axios 采访时首次提出这一预测，随后在 60 Minutes 等多个场合重申。他表示 AI 可能导致失业率飙升至 10-20%，并呼吁政府和 AI 公司停止“粉饰”这一风险。 Hassabis 的回答明显更保守：“我的时间线会长得多。” 他承认今年可能会开始看到一些迹象，比如入门级工作或实习的变化，但要实现真正的任务 Agent，需要解决当前 AI 的不一致性问题。 “我称之为‘参差不齐的智能’（jagged intelligence）。当前系统在某些事情上非常好，在其他事情上非常差。如果你想把整个任务委托给一个 agent，而不是像今天这样只是辅助程序，你需要全面的一致性。” 他给出了一个精辟的比喻：“如果它只在 95% 的任务上表现好是不够的。你需要它在整个任务上都表现好，才能真正做到‘发射后不管’。” 但他也承认，这种颠覆终将到来。“在极限情况下，有了 AGI，我认为那会改变整个经济，远远超出就业问题。” 他描绘了一个后稀缺世界的愿景：如果我们正确地构建它，我们将处于一个解决了一些世界根本问题的世界——比如能源。“如果我们用 AI 的帮助解决了聚变之类的问题，新材料……我认为在 AGI 之后 5 到 10 年，我们将处于一个极度富足的世界。那时经济和社会会是什么样子？” --- 【8】转型期的焦虑：10 倍规模、10 倍速度 Emily Chang 说，在到达后稀缺世界之前——如果能到达的话——人们对中间发生的事情有很多焦虑。她提到自己是一位母亲，知道 Hassabis 也有孩子。“你最担心他们什么？你和他们谈些什么？” Hassabis 承认这将是一个颠覆的时代，“就像工业革命一样。也许是 10 倍于工业革命，而且快 10 倍。” Emily Chang 迅速接话：“100 倍。” “是的，100 倍。”Hassabis 说，“但我也是人类创造力的坚定信仰者。我们极其适应性强，因为我们的心智是如此通用。你看看我们周围的现代世界——我们狩猎采集者的心智成功建造了现代文明。” 他认为人类会再次适应，但这次的独特之处在于速度。“通常这样的转变需要一到两代人，但这次的速度和变革的规模都是前所未有的。” 对于年轻人，他的建议是：“我会鼓励他们精通这些新工具，成为这些工具的原生用户。这几乎相当于给他们超能力。” 他以创意艺术为例：“你可能能够做到过去需要 10 个人才能完成的工作。如果你有创业精神，在游戏设计、电影、项目方面有创意，你可能比过去更容易进入这些行业。” --- 【9】是否应该暂停？理想与现实 Emily Chang 问：一些人主张暂停，给监管时间赶上，给社会时间适应。在一个完美的世界里，如果所有公司和国家都暂停，Hassabis 会支持吗？ “我想是的。”他说。他提到这一直是他的梦想。“当我 15 年前创立 DeepMind、25 年前开始从事 AI 工作时，我的路线图是：当我们接近 AGI 这个门槛时刻时，我们可能会以科学的方式合作。” 他描述了一个“AI 版 CERN”的愿景：世界上最优秀的人才聚集在一起，以非常严谨的科学方式完成最后的步骤。“不只是技术专家，还包括哲学家、社会科学家、经济学家，共同思考我们想从这项技术中得到什么，如何以造福全人类的方式利用它。” 【编者注】CERN（欧洲核子研究中心）是全球最大的粒子物理学实验室，由 23 个成员国共同运营，是国际科学合作的典范。但他话锋一转：“不幸的是，这需要国际合作。即使一家公司、一个国家，甚至整个西方决定这样做，除非全世界至少在一些最低标准上达成一致，否则没有用。而现在国际合作有点棘手。” Emily Chang 追问：如果 AGI 在 2030 年到来，而监管还没有到位，我们是否注定会遇到困难？ Hassabis 说他仍然乐观，希望足够多的领先参与者能够沟通并合作，至少在安全和安保协议上。“我们已经与 Anthropic 等公司在这些方面进行了相当密切的合作。” 当被问到是否愿意与 Sam Altman 合作时，Hassabis 说：“可能吧。我和几乎所有领先实验室的领导者关系都相当好。如果风险足够高——我认为每个人在未来 2 到 3 年会更清楚地认识到风险和代价。” --- 【10】Transformer 是死胡同吗？Hassabis 不同意 Emily Chang 提到 Yann LeCun 说他不认为 Transformer 和 LLM 单独能让我们达到 AGI。【编者注】Yann LeCun 是图灵奖得主、Meta 前首席 AI 科学家。他在 2025 年 11 月离开 Meta，创立了一家专注于“世界模型”的新公司。他多次公开称 LLM 是通向人类级智能的“死胡同”，认为它们缺乏对物理世界的理解、缺乏常识和因果关系。 Hassabis 明确表示不同意：“我不同意它们是死胡同，我认为那显然是错的——它们已经如此有用了。” 但他也承认这是一个经验性问题。“我认为有 50% 的概率，仅仅扩展现有方法加上一些调整就足够了。可能足够。” 他认为无论如何都值得这样做，因为即使需要其他东西，“这些 LLM 也将是最终 AGI 系统的一个极其重要的组件。唯一的问题是：它是唯一的组件吗？” 他估计可能还需要一到五个突破，“可能是世界模型——这是 Yann 谈到的，我们也在研究这个，事实上我们拥有目前最好的世界模型 Genie，我直接参与了那个项目，我认为它非常重要。” 【编者注】Genie 是 DeepMind 开发的“世界模型”系列。2025 年 8 月发布的 Genie 3 可以根据文本提示生成可交互的 3D 环境，被 DeepMind 视为通向 AGI 的重要阶梯，并被 TIME 杂志评为 2025 年最佳发明之一。他还提到了持续学习、系统一致性、更好的推理和长期规划等仍然缺失的能力。“从 Google DeepMind 的角度来看，我们在两个方向上都在全力推进——既发明新事物，也扩展现有事物。” --- 【11】“我们从未离开研究时代” Emily Chang 提到 Ilya Sutskever 说“通过扩展和做更大模型来获得改进的时代几乎结束了”。【编者注】Ilya Sutskever 是 OpenAI 联合创始人，于 2024 年离开后创立了 Safe Superintelligence Inc. (SSI)。2025 年 11 月在 Dwarkesh Patel 的播客中，他表示 2012-2020 年是“研究时代”，2020-2025 年是“扩展时代”，现在“又回到了研究时代”。 Hassabis 的回应很有意思：“不，我不同意。他的原话是‘我们又回到了研究时代’。我爱 Ilya，我们是很好的朋友，在很多事情上看法一致，但我的观点是——我们从未离开研究时代。” 他强调 DeepMind 一直在投资研究，拥有“最深厚、最广泛的研究储备”。“如果你看过去十年，Google 和 DeepMind 加在一起发明了大约 90% 的突破性技术——当然最著名的是 Transformer，还有深度强化学习、AlphaGo 等。如果未来需要新的突破，我会押注我们，就像过去一样，会是做出那些突破的人。” --- 【12】奇点来了吗？“太早了” Emily Chang 最后一个“同意还是不同意”的问题：Elon Musk 说我们已经进入了奇点。【编者注】2025 年底至 2026 年初，Elon Musk 在 X 平台上多次发帖称“我们已经进入了奇点”和“2026 年是奇点之年”，引发广泛讨论。他回应的是 Midjourney 创始人 David Holz 关于 AI 工具让他在圣诞假期完成了比过去十年更多编程项目的帖子。 “不，我不同意。我认为那非常过早。”Hassabis 说，“奇点是完全 AGI 到来的另一种说法，我之前解释了为什么我认为我们离那还很远。” 他承认即使 5 年也不算长，但“我认为在我们拥有任何看起来像奇点的东西之前，还有很多工作要做。” --- 【13】Google 的文化与创始人的参与 Emily Chang 问到 Google 内部现在的文化，以及 Larry Page 和 Sergey Brin 的参与程度。 Hassabis 说两位创始人都非常投入。“Larry 更多在战略层面，你会在董事会议上见到他。Sergey 更亲力亲为，参与 Gemini 团队的编码，更多涉及算法细节。” 他说这是一个“对计算机科学来说绝对不可思议的时刻”，科学上、人类历史上都是如此。“当然每个人都想亲身参与其中。” 他描述了自己试图结合多种优势：创业公司快速发布和冒险的能量，大公司的资源，以及长期和探索性研究的空间。“我认为过去一年进展顺利，我们还能做得更好，今年会做得更好。我认为我们的进步轨迹是业内最陡峭的。” --- 【14】为什么应该信任 Google？ Emily Chang 说所有这些公司都在要求我们信任他们，特别是如果监管跟不上技术的话。她直接问：为什么我们应该信任你们？为什么 Google 是最值得信任的地方？ Hassabis 说需要通过行动来判断这些公司，也要看领导者的动机。 “我选择 Google 作为 DeepMind 的归宿有几个原因。主要原因是 Google 的创始人和他们建立 Google 的方式——作为一家科学公司。很多人忘了 Google 本身是 Larry 和 Sergey 的 PhD 项目。所以我对他们感到一种直接的亲近感。” 他还提到了 Google 董事会的构成。“主席 John Hennessy 是图灵奖得主，Frances Arnold 是另一位诺贝尔奖得主。这些在企业董事会中是非常罕见的人物。” 【编者注】John Hennessy 是斯坦福大学前校长，因 RISC 架构获得 2017 年图灵奖。Frances Arnold 因定向进化研究获得 2018 年诺贝尔化学奖。他说这种科学和研究主导的文化意味着“在最高水平做科学意味着真正严谨、深思熟虑，并在任何可能的地方应用科学方法。不只是对技术，也是对你作为一个组织的运营方式。” 最后他提到 Google 的使命。“‘组织世界的信息’——我认为这是一个非常崇高的目标。它与 DeepMind 的使命‘解决智能，然后用它解决一切其他问题’非常契合。这两个使命天然配合——AI 和组织世界的信息天然相关。” --- 【15】后稀缺世界：比经济更担心的是“意义” Emily Chang 问：后稀缺世界，人们不再有工作。Hassabis 在实现所有技术目标后打算做什么？ “我想用它来探索物理学的极限。这是我在学校时最喜欢的科目——那些大问题。现实的本质是什么？意识的本质是什么？费米悖论的答案？时间是什么？引力是什么？” 他说了一句令人印象深刻的话：“我惊讶于更多人不去思考这些巨大的问题。我们只是日复一日地生活，而这些深刻的谜题几乎在向我尖叫——答案是什么？” 他希望用 AI 探索所有这些问题，“也许还有星际旅行，借助新能源和 AI 解锁的材料。” Emily Chang 问：如果我们没有工作，我们还会有意义和目的吗？ Hassabis 回答道：“老实说，这是我比经济问题更担心的事情。我认为经济几乎是一个政治问题——当我们获得所有这些额外的收益和生产力时，我们能否确保它为每个人的利益而分享？我相信这是可以做到的。” “但比这更大的问题是：我们很多人从工作和科学事业中获得的目的和意义，在新世界中我们将如何找到？” 他说我们需要“一些新的伟大哲学家”来帮助思考这个问题。“也许我们会在艺术和探索上变得更加精致，还有极限运动之类的。今天我们做很多不只是为了经济利益的事情，也许未来我们会有这些事情的非常高深的版本。” --- 【16】给年轻人和企业家的建议 Emily Chang 最后问：房间里的每个人都在想他们应该做什么。10 年后，人们关于 AI 最大的错误会是什么？ Hassabis 给出了两条建议。第一条是给年轻一代的：“我们唯一确定的是会有大量的变化。所以在学习技能方面，要准备好‘学会学习’——这是最重要的事情。你能多快适应新情况，用我们拥有的工具吸收新信息。” 第二条是给商业领袖的：“现在有很多领先模型和服务提供商，还会有更多。选择那些你认为正在以正确方式行事的合作伙伴。与那些正在推动变革、以你希望看到的方式对待这项技术的人合作。” 他总结说：“我认为我们可以一起构建那个未来——随着 AI 的到来，一个我们都想要的未来。” --- 【写在最后】这场访谈中，Hassabis 展现了一种独特的气质：既是最前沿竞争的参与者，又试图保持长线思考的清醒。他与几位同行的分歧值得注意：比 Dario Amodei 更保守地估计就业冲击，比 Elon Musk 更审慎地看待奇点，比 Ilya Sutskever 更相信 scaling 仍有价值，比 Yann LeCun 更认可 Transformer 的未来。但他们有一个共识：无论 AGI 是 2030 年还是更早到来，我们可能都没有准备好。Hassabis 想要的“AI 版 CERN”需要国际合作，而他自己也承认“现在国际合作有点棘手”。最后一个细节让我印象深刻。当被问到后稀缺世界的愿景时，这位每周工作 100 小时的 CEO 说他最想做的事情是思考“时间是什么？引力是什么？”——那些“几乎在向我尖叫”的宇宙深层谜题。也许这就是为什么他能在“科技史上最激烈的竞争”中保持某种平静：对他来说，AGI 不是终点，而是探索更大问题的起点。

显示更多

0

14

208

71

转发到社区

与「ContinualLearning」相关的搜索结果