
作者 |周亦晓邮箱 | zhouyixiao@pingwest.com 如果今天的大型模型与人类相比,他们肯定会患上一种罕见的神经疾病,叫做顺行性遗忘症。这是 Google Research 研究员 Ali Behrouz 提出的类比,他也是最近最受欢迎的文章之一《嵌套学习:深度学习架构的幻觉》的主要作者,引起了大家的思考。看过诺兰电影《记忆碎片》的人会更理解这种绝望。患有这种疾病的患者具有完整的“逆行记忆”。他们记得疾病发作前的一切:我是谁,我来自哪里,我有什么能力。然而,人们永远不可能对发病以来所发生的一切形成“新的长期记忆”。他们只是活在当下,几分钟后一切都会重新开始。这就是今天的人工智能模型。无论 Gemini 或 Chat 的知识多么渊博,如果你不上网搜索,你只能依靠训练前阶段的工厂知识(即“病前”记忆)来回答你的问题。在对话窗口中,无论您如何教授初创公司的业务逻辑或修复多少代码错误,这些信息都会保留在一个简短的上下文窗口中。当窗口关闭或显存重置时,您会像金鱼一样忘记刚刚发生的一切。下次你们见面时,他们将处于离开工厂时的状态,并且不会因为与你的互动而变得更聪明。为什么拥有超算能力的AI不能治愈健忘症?长期以来,业界存在一种二元观点,认为AI“架构”和“优化器”是两个完全不同的物种。该架构是一个骨架(就像一个变压器),静态且工厂冻结,并负责“推理”。 “优化器”是一把动态的切肉刀(Adam、SGD等),仅用于工厂内训练模型,离开工厂后被没收保守党。我们习惯于将人工智能视为静态产品,你所要做的就是运行它、打包它、发布它并使用它。但在谷歌最新的 52 页论文《嵌套学习:深度学习架构的幻觉》中,研究人员试图告诉我们,这实际上是一种幻觉,是我们自己创造的自我限制。如果架构和优化器本质上是相同的怎么办?所谓的“训练阶段”和“推理阶段”仅仅是不同频率下的“内存压缩”过程吗?基于这个大胆的假设,Google团队提出了一个名为HOPE的新框架。我们不是简单地把参数堆砌起来,而是试图从底层逻辑上重构人工智能的“大脑结构”。因此,人工智能不再是工厂准备好的工具,而是一个动态的生命有机体,具有“快速和慢速记忆系统”,可以通过每次交互进行自我调整。这份文件也被称为“全体出席”。变压器架构师这篇论文提出的方案导致了当前大型模型的激增,并让人们期待 HOPE 成为下一个 Transformer 级别的创新。 Ali Behrouz 在 NeurIPS 2025 上谈到了嵌套学习。 1 消除“幻想”:被遗忘的中间地带 要治愈“失忆症”,我们必须首先了解我们当前的人工智能大脑中内置了什么。在阿里·贝洛斯的解构下,现在的变形金刚建筑呈现出一种“精神分裂”的极端状态。没有复杂的数学术语,其内部组件可以被认为是两个极端。一个是“非常快”的注意力机制,它始终处于唤醒状态,对输入的每个单词(令牌)进行计算和响应。它的更新频率几乎是无限的,这赋予了模型所谓的情境学习能力。另一个是“非常慢”。 MLP(反馈神经网络)。这是模型的长期记忆,包含大部分参数,但更新时间不同频率。 0.这部分就像一个冻结的硬盘,永远不会改变,除非你花很多钱修改它。两者之间存在着巨大的差距。这就是“幻觉”的根源。我们的记忆是一个连续的频谱,感觉记忆为几秒钟,工作记忆为数小时,长期记忆为数天或数年。我们大脑中的突触不是黑白的,而是不断以不同的频率移动以填补这一空白。该团队提出了一个名为“嵌套学习”的概念。您可以将其视为精确啮合的齿轮系统。最外面的小齿轮旋转得非常快(处理当前的对话)。中央齿轮旋转得慢一些(记住过去几个小时或几天的工作)。最里面的大齿轮旋转得很慢(浓缩世界观和基础知识)。为了证明这个单元的生物学合理性,他甚至在文章中引用了大脑半球切除术的非常严格的神经科学例子。切除)。医学科学已经发展研究发现,即使一个人的一半大脑被截肢(通常是为了治疗严重癫痫),另一半脑组织也会重组资源并接管几乎所有功能,使人能够继续过正常的生活。这表明大脑没有专门负责注意力的模块或专门负责MLP的模块。血管神经组织是通用且可重复使用的。同样,人工智能“架构”和“优化器”本质上是同一件事,但嵌套级别不同。传统模型记住“数据”(令牌)。优化者(如 Adam)记住“梯度”。这意味着,“我上次在这里犯了一个错误,所以下次我会改正它。”它们都与“信息存储”和“状态更新”有关,那么为什么我们需要人为地将它们分开呢?也许我们不需要玩弄这种二分框架,可以直接设计覆盖整个频率范围的动力系统。三层设计1HOPE基于嵌套学习理论。Masu。 Google团队交出了一份具体的工程答卷,并给它起了一个有意义的名字:HOPE(高阶表达与优化)。如果说传统的 Transformer 是一个只有记忆的“单核处理器”,那么短期来看,HOPE 更像是一个遵循神经科学原理的“双记忆大脑”。通过两个组件,再现了类似于生物大脑的海马体和大脑皮层(Cortex)的协调机制。 1、高速系统:泰坦像海马一样锋利,走在HOPE的最前沿,是一个实时处理信息的“高速系统”。在这里,谷歌使用了《泰坦》(Titans),这是另一部早于本文原作者阿里·贝鲁兹 (Ali Behrouz) 的著名作品。 Titans 可以被认为是“超级 RNN”。它就像灵活的人类海马体,负责快速捕捉和编码当下的新知识。而传统的人工智能模型在处理新信息时是被动的离子,HOPE的泰坦模块具有很强的“主观能动性”,并且具有自我纠正能力。它不仅读取数据,还根据当前上下文实时生成此学习步骤所需的键和值,并确定此内存的学习率。这意味着我们可以准确评估眼前信息的重要性并快速形成短期记忆。 2. 缓慢的系统:像地壳一样厚的CMS是所有架构中最具破坏性的设计。 HOPE 具有连续内存系统 (CMS)。 CMS 就像厚厚的大脑皮层,具有以下功能: 它用于将过滤后的知识永久地印在神经元上。谷歌将人脑电波频率机制引入其人工智能架构的设计中,并构建了不同刷新率的层。在CMS中,模型的MLP(前馈网络)不再是整体的,而是分为不同的层,就像不同速度的齿轮一样。高频cy 层:可以每处理几百个单词就更新一次,以捕获您刚刚进行的对话中的新定义。中频层:为了适应新的项目上下文,每处理几万个字就可以更新一次。低频层:很少更新,用于稳定语言的语法和常识。左边的HOPE架构有丰富的中间层,旨在防止致命遗忘。新知识流动时,首先存储在高频层,不会干扰低频层的旧知识。随着时间的推移,真正重要的信息会慢慢沉淀到深处,就像沙漏中的沙子一样。 3.优化器也有“记忆”。 Google的伟大进步在于,它不仅改变了大脑(架构),还改变了老师(优化者)。为了处理这个复杂的系统,他们设计了一种名为 M3(多尺度动量 Muon)的新优化器。模型虽然是分层的,为什么不能分层可以叠加在优化器上吗?正常的 Adam 优化器只看前面的梯度(局部结构),容易出现短视思维。 M3优化器本身也被设计为嵌套结构。这包括一个“快速行驶”层,负责看到我们脚下的道路,以及一个“慢速行驶”层,负责看到远处的山脉(全局损失景观)。这意味着即使是负责训练的算法也有更深的记忆。 M3 优化器在 ImageNet 训练任务中表现出更快的收敛速度和更低的损失。实验数据表明,这种设计不仅收敛速度更快,而且在训练 ImageNet 和大规模语言模型时能产生更好的最终结果。 4.工程师的“后悔药” 对于行业开发者来说,HOPE最吸引人的地方可能是它提供了“即时转型”的可能性,而不是从头开始训练新模型。 Ali Behrouz 提到了一种技巧在他的部分中称为临时级别堆叠。无需放弃现有的 Llama 或 Kwen 模型。您可以直接采用预先训练的模型,并人为地指定具有不同“刷新率”的各个层来创建浅层。您可以将耳朵设置为高频,将深层设置为低频。这就像通过更新已经出厂的旧车的固件来解锁自动驾驶功能一样。此功能将嵌套学习转变为工程解决方案。 1 从“静态产品”到“动态生活” 当我们把视角从一行行代码中分离出来时,我们看到了嵌套学习实际上是什么:真正的野心不是赢得分类,而是试图完成人工智能领域的范式转变。在NeurIPS交流的最后,作者提出了一个发人深省的观点:“深度可能不再是唯一的答案。”在过去的十年里,我们一直在物理层上不断积累,并制作越来越深的神经网络。这种暴力审美虽然导致能力不断涌现,但也造成了巨大的“错觉”,错误地认为智力来自静态的深处。它忽略了实际深度可能来自嵌套优化。此外,本文提出了一个非常激进的定义:“预训练本身实际上是一种非常长期的情境学习”。这句话消解了人工智能领域最大的前沿。嵌套学习的愿景是不存在所谓的“训练结束”日期。模型与用户交互的每一秒,都会以特定的分钟间隔更新语法。它不再是工厂里硬化的冰冷机器,而是在数据流动中不断呼吸、新陈代谢、进化的有机体。这可能是通向 AGI 的一条更实质性的道路。智力不是可以灌输的东西,它是通过互动而成长的。当然,任何试图扭转范式的理论总是伴随着巨大的变革。争议。围绕该文件的讨论中提出了许多声音。乐观者将此视为“V2 只需要参加即可”。社区对自动更正的概念特别感兴趣。长期以来,我们批评法学硕士仅仅是“统计鹦鹉”,但有了 HOPE,人工智能第一次能够发展某些“元认知”技能,或者学会如何学习。这种从被动适应到主动适应的转变被认为是人工智能质变的关键。现实主义者思考灾难性遗忘的解决方案。如果这种架构能够实现,未来的企业级人工智能将不再需要花费数百万美元进行完整的再培训,只是为了更新其业务知识。人工智能自然会学习业务流程的新规则,而不会忘记旧系统。这是降低成本、提高效率最直接的方法。很多人都有疑问。例如,一些评论指出,虽然数学证明强制将梯度下降(SGD)解释为“联想记忆”的论文令人印象深刻,它基于直觉并且缺乏严格的收敛保证。一些工程师担心这种复杂的“嵌套优化”会大幅增加参数调优的难度。毕竟调整一个 Adam 已经够头疼的了,但现在我们却要同时调整多个不同频率的“大脑”。然而,无论如何,谷歌不是在积累参数,而是在挑战“学习的本质”。它以近乎哲学的方式提醒我们,对于真正的智能体来说,存在就是压缩,生命就是学习。 点击“爱”继续。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本站仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)已上传由网易号用户发布,网易号是一个仅提供信息存储服务的社交媒体平台。