下一个 Transformer 也可能由 Google 制造
发布时间:2025-12-07 13:30
作者 |周亦晓邮箱 | zhouyixiao@pingwest.com 如果今天的大型模型与人类相比,他们肯定会患上一种罕见的神经疾病,叫做顺行性遗忘症。这是 Google Research 研究员 Ali Behrouz 提出的类比,他也是最近最受欢迎的文章之一《嵌套学习:深度学习架构的幻觉》的主要作者,引起了大家的思考。看过诺兰电影《记忆碎片》的人会更理解这种绝望。患有这种疾病的患者具有完整的“逆行记忆”。他们记得疾病发作前的一切:我是谁,我来自哪里,我有什么能力。然而,人们永远不可能对发病以来所发生的一切形成“新的长期记忆”。他们只是活在当下,几分钟后一切都会重新开始。这就是今天的人工智能模型。无论 Gemini 或 Chat 的知识多么渊博,如果你不上网搜索,你只能依靠训练前阶段的工厂知识(即“病前”记忆)来回答你的问题。在对话窗口中,无论您如何教授初创公司的业务逻辑或修复多少代码错误,这些信息都会保留在一个简短的上下文窗口中。当窗口关闭或显存重置时,您会像金鱼一样忘记刚刚发生的一切。下次你们见面时,他们将处于离开工厂时的状态,并且不会因为与你的互动而变得更聪明。为什么拥有超算能力的AI不能治愈健忘症?长期以来,业界存在一种二元观点,认为AI“架构”和“优化器”是两个完全不同的物种。该架构是一个骨架(就像一个变压器),静态且工厂冻结,并负责“推理”。 “优化器”是一把动态的切肉刀(Adam、SGD等),仅用于工厂内训练模型,离开工厂后被没收保守党。我们习惯于将人工智能视为静态产品,你所要做的就是运行它、打包它、发布它并使用它。 但在谷歌最新的 52 页论文《嵌套学习:深度学习架构的幻觉》中,研究人员试图告诉我们,这实际上是一种幻觉,是我们自己创造的自我限制。如果架构和优化器本质上是相同的怎么办?如果没有所谓的“训练阶段”,“推理阶段”和“推理阶段”有什么区别?难道这一切只是不同频率下“内存压缩”的过程吗?基于这个大胆的假设,Google团队提出了一个新的框架l称为HOPE。他们不是简单地积累参数,而是试图从底层逻辑重构人工智能的“大脑结构”。因此,人工智能不再是工厂硬化的工具,而是一个动态有机体,通过快速和慢速记忆系统的每次交互来磨练自己。许多人还提到t他的文档为“您只需参加 V2”。论文提出的 Transformer 架构让当前的大规模模型变得流行起来,也让人们期待 HOPE 成为下一个 Transformer 级别的创新。 Ali Behrouz 在 NeurIPS 2025 上现场谈论了嵌套学习。 1 消除“幻觉”:被遗忘的中间地带 要治愈“失忆症”,我们必须首先看看当今人工智能大脑中内置的内容。在Ali Behrouz的解构下,当前的Transformer架构呈现出一种极端的“精神分裂”状态。在不使用复杂数学术语的情况下,您可以将其内部组件视为两个极端。一是“非常快”的注意力机制。它始终处于兴奋状态,计算您输入的每个单词(令牌)并立即做出响应。更新频率几乎不受限制;这赋予了模型所谓的上下文学习能力。只要说出来,您就可以出发了。另一种是“非常慢”的MLP(前馈神经网络)。这是模型的长期记忆,包含其大部分参数。然而刷新率为0。这部分就像一个冻结的硬盘,永远不会改变,除非你花很多钱修改它。两者之间存在着巨大的差距。这就是“幻觉”的根源。人脑不是这样工作的。我们的记忆是一个连续的频谱,感觉记忆可以持续数秒,工作记忆可以持续数小时,长期记忆可以持续数天甚至数年。我们大脑的突触并不是黑白分明的;它们以不同的频率不断调整。为了填补这一空白,Google团队提出了嵌套学习的概念。您可以将其视为精确啮合的齿轮系统。外部小齿轮旋转得非常快(它负责当前的对话)。中央齿轮旋转得慢一些(记住过去几个小时或几天的工作)。最里面的大齿轮旋转得很慢(浓缩世界观和基础知识)。证明生物定量为了这个单元的本质,他甚至在他的文章中引用了神经科学中一个非常残酷的例子,大脑半球切除术(H)。半球切除术)。医学发现,即使一个人的一半大脑被截肢(通常是为了治疗严重癫痫),另一半脑组织也会重新组织资源并接管几乎所有功能,使人能够继续过上正常的生活。这表明大脑没有专门负责注意力的模块或专门负责MLP的模块。神经组织是通用且可重复使用的。同样,人工智能“架构”和“优化器”本质上是同一件事,但嵌套级别不同。传统模型记住“数据”(令牌)。优化者(如 Adam)记住“梯度”。这意味着,“我上次在这里犯了一个错误,所以下次我会改正它。”它们都是“信息存储”和“状态更新”,那么为什么我们需要人为地将它们分开呢?也许这两个人可以直接设计dynamic 系统覆盖整个频率范围,而无需使用二进制框架。 1HOPE的三层设计基于嵌套学习理论。谷歌团队交出了一份具体的工程答卷,并给它起了一个有意义的名字:HOPE(优化和高阶压力)。如果说传统的 Transformer 是一个只有短期记忆的“单核处理器”,那么 HOPE 则更像是一个遵循神经科学原理的“双记忆大脑”。通过两个组件,再现了类似于生物大脑的海马体和大脑皮层(Cortex)的协调机制。 1、高速系统:泰坦像海马一样锋利,走在HOPE的最前沿,是一个实时处理信息的“高速系统”。在这里,谷歌使用了《泰坦》(Titans),这是另一部早于本文原作者阿里·贝鲁兹 (Ali Behrouz) 的著名作品。 Titans 可以被认为是“超级 RNN”。它就像人类灵活的海马体,负责快速捕获g 并编码当前的新知识。传统AI模型在处理新信息时是被动的,而HOPE的Titans模块则具有很强的“主观能动性”,并且具有自我纠正能力。不仅是数据,还根据当前上下文实时生成此学习步骤所需的键和值,并且还确定此内存的学习率。这意味着我们可以准确评估眼前信息的重要性并快速形成短期记忆。 2. 缓慢的系统:像地壳一样厚的CMS是所有架构中最具破坏性的设计。 HOPE 具有连续内存系统 (CMS)。 CMS 看起来像这样:厚厚的大脑皮层负责将过滤后的知识永久地印记到神经元中。 谷歌在其人工智能架构的设计中引入了人类脑电波频率机制,以创造不同级别的刷新率。 在CMS中,模型的MLP(前馈网络)不再是monolithic,但又分为不同的级别,就像不同速度的齿轮一样。高频层:可以每处理几百个单词就更新一次,以捕获您刚刚进行的对话中的新定义。中频层:可以每几万字更新一次,以适应新的项目上下文。低频层:很少更新,用于稳定语言的语法和常识。 左边的HOPE架构有丰富的中间层,旨在防止致命遗忘。新知识流动时,首先存储在高频层,不会干扰低频层的旧知识。随着时间的推移,真正重要的信息会慢慢沉淀到深处,就像沙漏中的沙子一样。 3.优化器也有“记忆”。 Google的伟大进步在于,它不仅改变了大脑(架构),还改变了老师(优化者)。为了面对这个复杂的系统,他们设计了一个新的优化器,称为M3(Multi 尺度动量 μ 子)。虽然模型是分层的,但是为什么层不能叠加到优化器上呢?正常的 Adam 优化器只看前面的梯度(局部结构),容易出现短视思维。 M3优化器本身也被设计为嵌套结构。这包括一个“快速行驶”层,负责看到我们脚下的道路,以及一个“慢速行驶”层,负责看到远处的山脉(全局损失景观)。这意味着即使是负责训练的算法也有更深的记忆。 M3 优化器在 ImageNet 训练任务中表现出快速收敛和低损失。 实验数据表明,这种设计不仅收敛速度更快,而且在训练 ImageNet 和大规模语言模型时能产生更好的最终结果。 4.工程师的“后悔药” 对于行业开发者来说,HOPE最吸引人的地方可能是它提供了“即时转型”的能力,而不是训练从头开始开发新模型。 Ali Behrouz 在他的部分中提到了一种称为临时级别堆叠的技术。无需放弃现有的 Llama 或 Kwen 模型。您可以直接采用预先训练的模型,并人为地指定具有不同“刷新率”的各个层,在高频处设置浅层,在低频处设置深层。这就像通过更新已经出厂的旧车的固件来解锁自动驾驶功能一样。此功能将嵌套学习转变为工程解决方案。 1 从代码到“动态生活”的视角从“静态产品”到“动态生活” 远离行业,我们看到嵌套学习真正的野心并不是更新排名,而是试图完成人工智能领域的范式转变。在NeurIPS交流的最后,作者提出了一个发人深省的观点:“深度可能不再是唯一的答案。”在过去的十年中,我们一直在物理层和d 制作越来越深的神经网络。这种暴力审美虽然导致能力不断涌现,但也造成了巨大的“错觉”,错误地认为智力来自静态的深处。它忽略了实际深度可能来自嵌套优化。此外,本文提出了一个非常激进的定义:“预训练本身实际上是一种非常长期的情境学习”。这句话消解了人工智能领域最大的前沿。嵌套学习的愿景是不存在所谓的“训练结束”日期。模型与用户交互的每一秒,都会以特定的分钟间隔更新突触。它不再是工厂里硬化的冰冷机器,而是在数据流动中不断呼吸、新陈代谢、进化的有机体。这可能是通向 AGI 的一条更实质性的道路。智力不是可以灌输的东西,它是通过互动而成长的。当然,任何试图逆转p的理论aradigm总是伴随着巨大的争议。围绕该文件的讨论中提出了许多声音。乐观者将此视为“V2 只需要参加即可”。社区对自动更正的概念特别感兴趣。很长一段时间,我们认为LLM只是一个“统计工具”。然而,有了 HOPE,人工智能第一次能够发展某些“元认知”技能,或者学习如何学习。相信这种从被动适应到主动适应的跨越是人工智能质变的关键。现实主义者思考灾难性遗忘的解决方案。如果这种架构能够实现,未来的企业级人工智能将不再需要花费数百万美元进行完整的再培训,只是为了更新其业务知识。人工智能自然会学习业务流程的新规则,而不会忘记旧系统。这是降低成本、提高效率最直接的方法。很多人都有疑问。例如,一些评论指出尽管一篇论文强制将梯度下降(SGD)解释为“联想记忆”的数学证明令人印象深刻,但它基于直觉并且缺乏严格的收敛保证。一些工程师担心这种复杂的“嵌套优化”会大幅增加参数调优的难度。毕竟,调整 Adam 已经够痛苦的了。但现在我们必须同时将多个“大脑”调整到不同的频率。然而,无论如何,谷歌不是在积累参数,而是在挑战“学习的本质”。它以近乎哲学的方式提醒我们,对于真正的智能体来说,存在就是压缩,生命就是学习。 特别提示:本文由网易自有媒体平台“网易账号”作者上传发布。布料仅代表作者观点。网易仅提供一个信息发布平台。 注:以上内容(含图片、视频、如有)由网易号用户上传并发布,网易号是一个仅提供信息存储服务的社交媒体平台。