0
来源:市场资讯
(来源:图灵人工智能)
导读
深度学习的科学理论是能够刻画神经网络训练过程、隐层表示、最终权重与性能等关键属性与统计规律的理论。本深度学习的科学理论形成了五大研究方向:
可解的理想化设定,为真实系统的学习动力学提供直观理解;
可处理的极限情形,揭示基础学习现象的本质;
捕获重要宏观可观测量的简单数学定律;
超参数理论,将超参数与训练过程的其余部分解耦,简化系统;
跨系统与跨设定的普适行为,明确需要解释的现象。
这些研究方向共同具备以下特征:
聚焦训练过程的动力学;
主要描述粗粒度的聚合统计量;
强调可证伪的定量预测。
这套正在形成的理论最适合被理解为学习过程的力学,并提议命名为学习力学(learning mechanics)。学习力学应是一套数学理论,基于能紧密拟合实验的第一性原理计算,依赖经过充分验证的近似与假设,成熟后将对机器学习全栈产生广泛影响。
目 录
1.引言
2.学习力学正在形成的证据
3.与其他视角的关系
4.质疑与回应
【引言】
深度学习是众所周知的 “黑箱” 学习方法,是机器学习家族中最强大、最难以理解、且如今技术上最重要的成员。经过恰当训练,神经网络能在大量任务上实现超人类性能,但我们始终缺乏统一的科学框架来解释其原理与机制。出于科学好奇心与工程应用价值的双重驱动,为这门应用学科建立严谨数学与科学支撑的努力已持续数十年。尽管取得部分进展,我们的理解仍十分初级:神经网络的训练方法仍高度依赖试错而非第一性原理,理论在深度学习日常实践中作用甚微。随着实践不断推进,这一挑战愈发严峻;在大语言模型与扩散模型时代,相关谜团比一二十年前更深。
本文认为深度学习终将形成一套科学理论;我们已能看到该理论的雏形逐步浮现;这套理论将以学习过程力学的形式呈现。
深度学习理论的核心问题随时间演变,理解领域未来方向,需先回顾其发展历程。深度学习理论与机器学习本身一样古老,根源可追溯至 20 世纪中叶的 McCulloch–Pitts 神经元与感知机。机器学习最早的理论问题关注表达能力:简单模型能表示哪些函数、如何从数据中学习?随着学习被理解为统计问题、简单学习系统取得实际成功,理论焦点转向:有限样本学习何时能泛化? 这催生了经典学习理论,包括统计学习理论、计算 / PAC 学习理论。结合经典优化理论,这些框架为简单学习系统的优化与泛化提供了清晰的端到端保证。与此同时,机器学习统计物理的经典传统发展出能解释简单模型平均行为的完备理论。
尽管这些经典理论为理解学习奠定坚实基础,但多层网络、反向传播、数据与算力规模扩张带来的深度学习崛起,暴露了其解释力的局限。神经网络复杂、非凸、过参数化(与经典学习理论擅长的简单、凸、简约模型形成对比),其优化与泛化效果远超经典理论所能保证或解释的范围。此外,神经网络并非仅拟合数据或实现低训练误差,它们会学习结构化的内部表示,并在不同任务与规模下展现出显著规律性。性能与效率的经典问题依然重要,但回答这些问题,首先需要理解由神经网络训练动力学与训练数据结构共同塑造的大量新现象。
这标志着深度学习理论的性质发生转变:从主要研究 “可能性” 的数学学科,转向真正描述、解释并最终预测复杂实证系统行为的科学探索。新科学探索往往始于实证矛盾 —— 自然呈现出用现有工具无法预测或解释的有趣现象;尽管神经网络是人工计算系统,这里同样存在这类科学矛盾。因此,我们应以科学家的姿态开展工作:拥抱实证、寻找统一原理、识别重复模式。我们也应预期,其发展路径更接近自然科学而非纯数学。
1. 何为 “力学”
力学是物理学中研究物体受力如何决定其时空运动的分支。神经网络学习可类比理解:如同物体在物理空间连续运动,学习过程中模型在参数空间通过离散更新发生移动。物理科学中,力来自系统组件间的相互作用;同理,深度学习过程由参数、数据集、任务与学习规则的相互作用塑造。物理中,力由场传递;深度学习中,力由梯度传递。物理中,系统在由内部相互作用与外部约束决定的势能局部极小点达到平衡;类似地,神经网络收敛到由架构与训练数据塑造的损失曲面局部极小点。尽管研究对象截然不同,由于两者核心问题本质上都关乎运动与相互作用,我们可预期其科学体系会共享部分特征。
这些类比并非空想:上述研究方向已体现这些相似性。所有力学分支(尤其经典力学)都会构建可解析求解的设定库以建立直观理解;学习力学同样如此。所有力学分支都用极限作为简化工具;学习力学也同样如此。直接处理大量相互作用组件的连续介质力学与统计力学,描述宏观汇总统计而非单个粒子运动;这一思路在应对深度学习复杂性时同样有效。所有物理系统都有影响行为的系统参数(特征尺度、耦合常数等),部分处理方法与深度学习中超参数的研究方法本质一致。最后,物理学中大量现象在截然不同场景中重复出现;深度学习系统中同样涌现出普适行为。
综上,这门新兴科学与成熟力学分支存在深刻相似性。类比经典、连续介质、统计、量子力学,我们提议将这套理论命名为学习力学。
学习力学的七大期望
我们需明确对学习力学的核心期望。参考成熟力学分支的动机、发展与成功,我们确立以下七大目标:
基础性:从神经网络训练的第一性原理描述出发逻辑推演。关于网络权重、动力学与性能的中间假设虽有用,但最终需由第一性原理解释。
数学性:对神经网络关键属性做出无歧义的定量表述。力学并非定性科学,学习力学亦如此。
预测性:提出可通过简单、可重复实证测量验证的结论。我们对系统拥有极佳实验控制能力,每一项重要进展都应能被实验明确验证。
完备性:用统一框架描述神经网络训练过程、隐层表示与最终权重。需强调:这套理论不会、也不应试图描述一切。与世界等分辨率的地图毫无用处。我们追求的是合适分辨率的理论 —— 牺牲细节以换取洞见。
直观性:简洁、清晰、令人信服地揭开深度学习的神秘面纱。如同物理学,学习力学应追求简单洞见而非技术复杂度。
实用性:作为应用深度学习的科学基础,如同物理学对其他工程学科的支撑。具体目标包括大幅减少超参数调优需求、提供数据集设计的预测工具、为 AI 安全工作奠定严谨基础。
谦逊性:对能描述的内容扎实严谨,对不能描述的内容明确边界。物理科学的每个分支都有适用范围,超出则失效;这些边界与理论本身一同传授,确保可靠使用。我们预期,适用于真实深度学习的学习力学,在大量小规模、手工设计或特殊场景中会失效,这是在关注场景中获得简洁图景的必要代价。
具备以上特质 —— 基础、数学、预测、完备、直观、实用、谦逊 —— 的学习力学,将具有变革性、范式级的意义。我们预期这样的理论能解决长期悬而未决的重要问题。
2. 学习力学为何重要
构建学习力学并非易事,需要持续的智力与机构投入。因此,明确这一项目的价值至关重要。追求学习力学的理由可分为三类:科学、实用、安全。
科学理由:关乎该理论对智能与自然世界的启示。大型神经网络的工程成功表明,它们利用了我们尚未理解的学习与表示深层原理。这在历史上有先例:技术往往先于科学理论,例如蒸汽机推动热力学发展,而热力学最终解释的远不止引擎效率。航空领域同理:飞机通过试错与自然启发发展,推动空气动力学理论形成,进而优化飞机设计并深化对鸟类飞行的理解。对我们而言,支配人工神经网络学习的原理,也可能揭示生物智能的本质,对神经科学与认知科学产生重要影响。
实用理由:关乎现实 AI 系统的设计与开发。成熟的深度学习理论可指导模型设计、优化、缩放与部署,用可靠原理替代试错。理论已在有限但不断扩大的场景中发挥作用,包括经验缩放律、超参数缩放的数学规则、基于理论的优化器与数据归因方法。更深入、完整的理论将提供更精准、更具预测性的指导。
安全理由:关乎我们描述、刻画与管控日益强大 AI 系统的能力。强大 AI 大概率需要监管,但无法清晰描述的技术难以监管。能识别大型模型关键变量、机制与组织原理的理论,可提供可靠性、监管与控制所需的清晰性。基础理论助力 AI 安全的一条路径是支撑机制可解释性。
【学习力学正在形成的证据】
学习力学之所以可行,核心乐观依据是:深度学习的核心要素既明确又可测量。深度学习系统由以下组件定义:
由简单线性与非线性变换复合而成的神经网络
数据集
,来自未知数据生成分布
衡量网络在数据集
D
上性能的目标函数
基于梯度的更新公式,例如,搭配参数初始化(如)与优化超参数(如学习率)
学习过程没有任何隐藏部分。与许多需从观测推断动力学方程的复杂系统不同,深度学习直接暴露其 “运动方程”。此外,这些动力学极易测量:每个权重、激活、梯度、损失值,以及由其导出的任意统计量,都可被记录。因此,深度学习实验极易设计、复现与分析,更易发现经验规律并严格检验理论预测。少有快速发展的科学领域能提供如此透明的控制方程与如此自由的测量空间。
那么,深度学习科学理论的障碍是什么?核心挑战并非不透明,而是复杂性。尽管我们能直接获取架构、数据、任务与学习规则,但这些组件的相互作用导致学习动力学呈现非线性、耦合、高维特征。这些动力学对超参数选择高度敏感。即便我们能检查每个训练样本,数据分布仍复杂且难以简单刻画。
尽管如此,我们认为这种复杂性背后隐藏着底层规律,深度学习终将形成科学理论。下文提出五大观测,证明学习力学正在形成。每条观测都与其他力学学科的工具与思想直接类比。
1. 存在可解析求解的设定
理解复杂系统的可靠方法是研究简化但具代表性的可定量计算设定。例如,物理学用谐振子、氢原子等可解典型设定为更广泛系统提供直观理解。深度学习尤其适合这一方法:研究者已发现丰富的极小模型库,学习动力学在其中简化,大量感兴趣的量可解。这些解析可解基石的价值在于:它们揭示了转向真实深度学习时需寻找的现象与机制。
一种极具成效的简化是线性化。我们讨论两种不同实现:数据线性化(对线性)与参数线性化( 对线性)。
数据线性化
深度线性网络通过移除神经网络架构的所有非线性成分,模型对输入
线性,但对参数仍高度非线性:
深度线性网络研究历史悠久,尽管简单,却保留了深度学习的许多标志性行为,包括以鞍点为主的损失曲面、带尖锐相变与时间尺度分离的动力学、梯度下降的稳定边缘振荡、强初始化依赖的归纳偏置。这些网络的分析通常在梯度流学习规则(梯度下降的连续时间极限)下进行,对数据分布做简化假设并精心选择初始化。在这些场景中,学习动力学通常可精确求解或降维为低维动力系统。
大量分析得出一致结论:学习呈现贪心低秩偏置,优先学习任务的部分分量。Saxe 等人(2014)的经典工作首次证明,深度线性网络在训练中会依次学习输入 - 输出相关矩阵的奇异向量,优先学习最大奇异值对应的模式。这种偏置被认为通过分离信号与噪声提升泛化能力,且与非线性网络行为高度相似 —— 非线性网络通常先学习简单函数,再学习复杂函数。此外,小初始化、增加深度、更强小批量噪声、显式正则化等因素,均被证明会进一步强化这种贪心学习偏置。
与白化输入 下,深度线性网络的梯度流学习动力学解耦为独立可解的伯努利常微分方程,导致奇异模式的顺序学习,大奇异值模式优先出现。(b) 在初始参数附近对非线性网络做泰勒展开截断非线性项实现线性化,将最小二乘训练转化为基于神经切核(NTK)的核岭回归。该分析通过 NTK 本征结构将网络架构与归纳偏置关联,能准确预测这些网络的测试性能。
参数线性化
参数线性化网络通过在初始参数处对网络做泰勒展开并截断非线性项得到,模型对参数 线性,但对数据仍高度非线性:
这并非人为构造:事实上,部分场景中模型在整个训练过程中都能被其线性化版本良好近似,即:
例如,任意神经网络架构都可通过合适极限进入线性化场景。近期证据表明,语言模型微调发生在近线性化场景中。
由于线性化网络对参数线性,其学习动力学与线性回归完全一致,关键区别在于:线性回归动力学由 Gram 核驱动,而线性化网络由神经切核(NTK)
描述。当任务为最小二乘回归且训练使用小步长梯度下降时,动力学可解析求解,最终预测器等价于基于 NTK 的核岭回归。
该设定为多种深度学习现象提供洞见。例如,网络架构细节通过固定特征映射影响 NTK 的数学结构,由此可理解线性化模型的归纳偏置如何源于架构。此外,考虑输入数据结构后,可准确预测模型在任意目标下的期望泛化误差。将该框架应用于真实数据分布,可揭示模型倾向学习简单且泛化函数的根源。线性化模型还能捕获双下降、缩放律等相关现象。
尽管具备理论价值,线性化网络在几个关键方面不切实际。最显著的是,它们无法捕获通用神经网络的强特征学习能力,常导致对样本复杂度的过度悲观预测。此外,通过将训练简化为可解线性问题,这些模型回避了深度学习固有的非凸优化现象。要描述这些及其他深度学习方面,必须超越线性化。
超越线性化
理论的重要前沿是发展同时对数据与参数真正非线性的解析可解模型。在这些场景中,数据分布的影响更复杂,难以获得统一通用框架。尽管如此,越来越多研究通过分离特定非线性机制,并在数据假设下使其可解,正取得进展。
部分工作研究高斯输入与结构化目标(如单索引、多索引模型)。全非线性神经网络能以更少样本超越核方法,因为它们利用目标函数的结构学习相关特征。互补地,统计物理方法可计算这些模型中贝叶斯最优推理与学习动力学的精确渐近行为。另一相关场景是带二次激活函数的双层神经网络,近期工作已刻画其精确渐近行为、训练动力学与缩放律。其他研究方向分离不同非线性现象:齐次网络在逻辑损失下训练收敛到最大间隔解、师生模型中训练动力学降维为低维汇总统计量、联想记忆模型的记忆、模块化算术任务中学习的算法结构、注意力的非线性可解模型、非线性特征学习带来的缩放律改进。
这些方法展示了当前非线性模型的前景与局限:每个模型捕获全非线性学习动力学的一个片段,但尚未形成统一框架。
2. 启发性极限揭示基础行为
现代深度学习系统规模极大:通常包含数百个交互架构组件、数千亿参数,在万亿 token 上训练。面对如此多交互自由度,构建追踪真实系统单个参数的微观详细理论几乎无望。
幸运的是,复杂系统在近似为有效无限大时往往简化,揭示简单数学结构,且对原有限系统仍具参考价值。这一策略在统计物理与化学物理中已成熟:例如理想气体定律在无限粒子数极限(热力学极限)下推导,却能准确描述有限体积的真实气体。极限是管理深度学习复杂性的核心数学工具,其反复成功为理论形成提供有力证据。
,宽度 ,匹配教师网络 。绘制学生权重 (颜色表示 )的训练轨迹与教师特征方向的关系。左: 时为 rich 动力学 —— 学生权重显著变化,围绕教师特征方向聚类。右: 时为 lazy 动力学 —— 学生权重在训练中几乎不动,尽管损失下降。
无限宽度极限与 lazy/rich 二分法
将隐藏层神经元数量取至无限大时,深度神经网络动力学常简化。该极限通常导致平均场行为:只需描述神经元群体整体演化(如概率分布),无需关注单个神经元。但实现该极限需随宽度增加缩小初始化尺度,防止深层激活发散。无限宽度极限的关键微妙之处:抑制初始权重的速率强烈影响最终训练动力学,导致两种定性不同的极限行为。
Lazy / 核 / 线性化区域
最早的无限宽度研究仅关注初始化时的网络统计,而非训练动力学。这些工作发现,为使隐藏层输入随宽度增加既不消失也不爆炸,初始化参数大小需按衰减。这符合经典 LeCun 初始化规则,可由中心极限定理简单推导。后续尝试直接训练无限宽度网络的工作发现惊人事实:网络权重与隐层表示变化极小,但微小变化累积产生输出函数的显著改变。因此,训练动力学在 2.1 节所述意义上对参数线性,目标函数的演化可完全用 NTK 表示。尽管该极限下的网络解析可解性极佳,但其隐层表示几乎不演化,意味着无法实现特征学习。尽管特征学习的定义存在争议(开放方向 4),共识是至少要求网络对给定数据样本的隐层激活相对于初始化发生变化,而该极限下不满足。这表明 NTK 无限宽度极限并非合适研究对象。该线性化区域的网络后被 Chizat 等人(2019)称为lazy。
Rich / 主动 / 特征学习区域
作为回应,多位研究者提出另一种无限宽度极限,训练确实能诱导特征学习。核心思路是将最后一层权重按缩放,而非此前的,迫使网络权重更大幅度变化以补偿。
这种 “缩小网络输出” 的想法最早出现在 Mei 等人(2019)、Rotskoff & Vanden-Eijnden(2018)、Chizat & Bach(2018)的浅层 “平均场网络” 中。Geiger 等人(2020)与 Yang & Hu(2021)发现该思路也适用于任意深度网络,将超参数缩放因子整合为著名的最大更新参数化(µP)。如今学界普遍认可:无限宽度神经网络可以学习特征。
该 “rich” 区域的宽网络展现出 lazy 区域不具备的大量有趣行为。最重要的是:网络隐层特征随时间变化,适应输入数据结构,训练过程中改变隐层表示的内部几何。神经元子群体专业化,学习关注数据中潜在的不同特征。例如,在最优预测涉及高维数据低维子空间的任务中,第一层权重分布演化以放大感兴趣子空间的权重。将初始化尺度进一步缩小,常出现贪心低秩偏置,优先学习任务的部分分量。
无限宽度分析的核心发现是lazy–rich 二分法及其对初始化尺度的依赖。后续工作表明,类似行为在有限宽度下同样存在:缩小网络输出促进特征学习,将模型推向 rich 区域;增大输出尺度则线性化训练动力学,诱导 lazy 行为。这种对初始化尺度的敏感性与更广泛的归纳偏置文献相关:学习设置的微小变化可引导训练走向根本不同的解类别。图 2 展示同一有限网络在不同输出缩放下,可表现出 lazy 或 rich 学习动力学。
无限深度极限与其他超参数极限
与无限宽度类似,通过缩小每层贡献防止残差流爆炸,可得到深度残差网络的稳定无限深度极限。同样,根据缩放因子大小,存在不同极限行为:每层按抑制,残差流随深度平滑变化(类似神经 ODE);按抑制,残差流如同随机微分方程驱动般扩散。这两种极限下的网络,在 Transformer 等真实架构中收敛到定性不同的解。目前尚不清楚哪种极限更重要。
部分深度学习架构支持宽度 / 深度之外的规模极限。除增大规模或前馈层数量外,也可用类似平均场思想分析循环架构的无限极限。顶尖 Transformer 模型包含更具表达力的组件,如多头自注意力层与混合专家多层感知机。这些层有多个缩放维度,包括注意力的头数、头大小、上下文长度,以及混合专家模型的专家数、专家大小、稀疏性。厘清这些模型中不同无限极限的相互作用,对衔接现代实践、解耦初始化与优化相关超参数至关重要。
最后,大多数优化超参数都有对应的极限。批量大小趋近无限大时得到批量梯度下降;学习率趋近于 0 时恢复梯度流;加入无穷小权重衰减并将训练时间趋于无限,先将损失优化至收敛,再在损失最终值条件下做参数范数最小化。
联合缩放极限
有时多变量的缩放极限可良好兼容,即与结果一致。例如,残差网络的无限宽度与深度极限通常如此,只要采用合理参数化。但在许多理论机器学习场景中,不同缩放维度不可交换,极限行为可能依赖极限比。这类联合 / 比例缩放极限在随机矩阵理论中常见:例如考虑
P
N
列随机矩阵的奇异值分解,且 保持恒定。在机器学习理论中,随机数据训练的神经网络常可用联合缩放极限描述 —— 数据集大小与参数数量同时趋于无限,但一个或多个比值为有限值。这种联合缩放对研究计算最优神经缩放律至关重要(训练视野即数据集大小与总参数线性缩放),也对理论刻画超参数迁移现象必要。这些(数据 & 模型规模)联合极限潜在重要性在于:固定数据集大小下的无限参数极限可完美插值,无法捕获跨模型规模的缩放律行为。其他被充分研究的联合缩放量包括非残差网络中的比、rich 区域中的比,以及 “SGD 噪声温度” 。
离散化假设
总体而言,广泛使用极限管理深度学习复杂性,反映了跨学科的 recurring 主题:恰当的渐近视角常使原本难处理的系统解析可解。许多理论家持有启发式信念:大多数实用神经网络可被理解为无限大模型的有噪、有限近似。类比而言,我们通过时空离散化数值求解偏微分方程,离散越精细,连续过程的数值误差越小。深度学习神经网络很可能同理,宽度与深度替代时空。其他有限超参数(如学习率、批量大小、数据集大小)也可如此理解。
我们可将这一信念称为离散化假设。尽管尚未被精确表述或证明,该假设隐含支撑了大量重要工作;若无此假设,大模型解析研究的诸多成果将难以成立。
离散化假设的核心表述:极限的有限尺寸修正通常降低性能,但节省数据、时间、内存与算力成本。若能证明这些有限尺寸效应能带来其他方式无法实现的普遍收益,即可证伪该假设。
3. 简单经验定律捕获有意义的宏观统计量
深度学习高度可测量:训练前、中、后均可轻松追踪海量量。尽管任何量都可测量,最具规律性的通常是跨大量权重与样本的宏观聚合统计量。例如,训练与测试损失是跨大量样本的聚合量。这些量偶尔由简单经验定律相互关联。这类定律已在塑造我们对深度学习的理解与实践中发挥重要作用。
这一模式在定量科学中有充分先例。许多重要物理与化学定律最初都是经验规律,后才被更深层原理解释,包括开普勒、斯涅尔、玻意耳、胡克、法拉第、欧姆、泊肃叶、普朗克、哈勃等人的定律。考虑到科学领域常以这种方式发展,随着深度学习科学成熟,大概率会持续涌现经验定律。下文我们重点举例,并为理论家总结启示。
神经缩放定律
任何机器学习系统最重要的测量指标都是测试损失。考虑到大型深度学习系统的复杂性,我们可能认为测试损失是系统超参数的复杂、不可知函数。事实并非如此:神经缩放律研究表明,在同一架构家族内,最终损失遵循可预测的幂律,仅由三个标量变量支配:算力、数据量、网络规模。这些幂律如图 3 所示。
图 3:大型神经网络的损失按可预测的神经缩放律衰减。这些神经缩放律在算力、数据集大小与参数数量上呈现幂律形式(对数 - 对数图上为直线)。
测试损失为何随这些变量按幂律衰减?幂律指数由什么决定?我们仍未知!尽管缩放律常被归因于数据结构,相关解释包括数据流形维度、特征叠加、任务结构中的幂律,但也可能依赖架构与优化器细节。目前尚无框架能从数据集与架构属性出发,在真实场景中先验稳健预测观测到的指数,尽管近期研究已开始朝此方向推进。测试损失如此可预测的事实,强烈暗示仍有待发现的简单底层解释。
稳定边缘的权重动力学
每个模型都是训练过程的结果,我们希望理解训练中模型权重的动力学与轨迹。尽管简单场景下这些动力学可精确求解,通常难以实现。损失曲面决定网络动力学,但 Li 等人(2018)的损失可视化显示,其结构极其复杂,不太可能存在规律。
尽管如此,已发现权重轨迹粗粒度聚合属性的稳健模式。其中之一是网络损失曲面的陡峭度,定义为参数海森矩阵的最大特征值。当用全批量梯度下降、学习率训练典型网络时,陡峭度经历两个不同阶段:渐进锐化(逐步上升),随后在附近平稳,称为稳定边缘。
识别这些规律后,我们可开始理解它们。渐进锐化在深度线性网络中已被证明存在,但适用于真实非线性网络的定量解释仍待发现。对陡峭度稳定在的原因理解更充分:是凸优化中最大稳定陡峭度 —— 超过该值会导致参数振荡幅度不断增大。更一般场景中,Damian 等人(2022a)证明,损失曲率三阶项的粗粒度属性可导致(二阶)陡峭度稳定在。后续工作揭示,稳定边缘的损失动力学可分解为平滑、时间平均的梯度流动力学与不稳定方向的振荡。这些工作对参数轨迹做出定量预测,与实验高度吻合。
图4:梯度下降发生在稳定性边缘附近。 使用全批次梯度下降在 CIFAR-10 上训练三种架构,并设置不同的学习率 η。图中展示了训练损失(上一行)和 Hessian 尖锐度(下一行)。对于每个步长 η,可以观察到尖锐度上升到 2/η(水平虚线所示),并徘徊在该值附近或略高于该值。
隐层表示与权重的粗粒度属性
还有少量场景中,神经网络隐层表示与权重的粗粒度属性已知遵循简单方程。我们简要提及三个。
神经坍缩(Neural collapse)
考虑训练以区分
C
个类别的神经网络分类器。Papyan 等人(2020)发现,训练末期,每个类别样本的最终隐层表示会紧密围绕类别均值聚类。此外,
C
个类别均值向量构成正则单纯形。后续理论工作将这种几何排列解释为自然的能量最小化配置,条件为:(a) 使用交叉熵损失;(b) 施加小权重衰减。
神经特征假设(Neural feature ansatz)
在网络另一端,第一层权重存在一些稳健规律。Radhakrishnan 等人(2024)证明,训练后第一层权重的 Gram 矩阵与平均梯度外积对齐:
,其中表示网络对的雅可比矩阵。尽管该规则是启发式且不精确,却常对的顶级特征向量等量做出惊人准确的预测。更深层也存在类似启发式规则。截至目前,该现象仅有部分理论解释。
梯度流守恒律
线性网络中一个惊人规律是:连续层的协方差矩阵与 Gram 矩阵之差在梯度流下守恒。这一线性网络的奇特现象,后被证明源于参数化的连续对称性 ——诺特定理的实例 —— 因此可用于识别非线性网络中的类似守恒量。例如,齐次非线性(如 ReLU)网络的缩放对称性、归一化层(如批量归一化)前的尺度对称性、softmax 前 logits 的平移对称性、注意力中 key 与 query 矩阵的旋转对称性,都会导致参数的特定统计量在梯度流下守恒,并被 SGD 以可预测方式弱打破。
对理论家的启示
理论可 “自下而上” 构建,也可 “自上而下” 构建(从经验观察出发并尝试解释)。我们预期未来会有更多。深度学习的可测量性使观察与实证研究格外高效,实验可快速迭代,同时揭示训练模型中数学简单的关系与结构。当然,需谨慎:大多数宏观统计量并不遵循简单通用的数学定律 —— 或至少在绘制到正确量之前看似如此 —— 挑战在于找到那些遵循的量。我们鼓励深度学习理论家主动用实验寻找神经网络中的规律。
4. 超参数可被解耦与理解
训练深度学习系统涉及许多数值旋钮,称为超参数。包括优化超参数(学习率、批量大小、动量、初始化方差)与架构超参数(宽度、深度)。深度学习中超参数数量庞大,不仅对从业者(需精心调优以实现最优性能)构成挑战,也对研究者(解读科学实验结果时需处理大量混杂因素)构成挑战。直到近几年,理论界才意识到:超参数可被解耦与理解,且由此产生的数学对从业者实用、对研究者清晰。
超参数研究与物理动力系统常数参数的研究相似。例如,流体在管道中流动时,由管道直径、流体速度、密度、粘度计算得到的无量纲数雷诺数,决定流动是层流还是湍流。尽管求解湍流流体轨迹极其困难,但能快速预测流动是否湍流、以及管道直径或流体流量变化的影响,仍极具价值。同理,尽管求解神经网络优化动力学非常困难,但快速获得超参数变化影响的粗粒度图景,通常很有帮助。本节重点举例两条超参数理论取得突破的研究线。
理解优化超参数
随机梯度下降(SGD)有两个超参数:学习率与批量大小。算法动力学在两者同时缩放时通常保持不变。即,若将学习率与批量大小同时加倍,并将优化步数减半(或等价地,保持处理的训练样本数不变),轨迹几乎不变。这一线性缩放规则可将针对某一批量大小调优的学习率迁移到另一批量大小。一系列理论工作将 SGD 解释为底层随机微分方程(SDE)的离散化,该视角预测了线性缩放规则。Malladi 等人(2022)将该工作从 SGD 扩展到自适应优化器,提出学习率应随批量大小的平方根缩放。
这种不变性视角解释了如何跨批量大小调整超参数,但未解释如何选择批量大小本身。该选择涉及两种资源的固有权衡:串行时间(连续训练步数)与总算力(总计算量,通常与成本紧密相关)。仅关心串行时间、完全不关心成本的从业者,最优批量大小是全数据集。相反,仅关心成本、完全不关心串行时间的从业者,最优批量大小是 1。现实中,没有从业者完全偏向某一端;通常愿意在一种资源上让步,以换取另一种资源的更好条件。一个常被讨论的概念是临界批量大小,即权衡这两种因素的批量大小。McCandlish 等人(2018)提出简单权衡模型,其中串行时间与算力的帕累托边界呈双曲线形式。
深度学习中的优化超参数不仅影响训练速度与成本,还影响训练轨迹,进而影响学习网络的各种属性,包括泛化性能与可压缩性。一系列富有成效的工作通过以下假设解释这些效应:优化器的许多隐式效应可被理解为对损失函数曲率的隐式正则化。实证研究最初观察到,一阶优化器正则化损失函数的曲率(海森矩阵),更大学习率与更小批量大小带来更强正则化强度。同时,简化场景下的理论工作通过将目标函数泰勒展开至三阶,解释了这一效应:振荡或波动动力学自动诱导曲率正则化。基于这些工作,Cohen 等人(2025)近期证明,对于全批量设置下的多种优化器,真实神经网络的整个训练轨迹可被曲率惩罚梯度流良好建模,超参数的作用是调节曲率惩罚的形式与强度。因此,我们如今对全批量梯度下降中的学习率拥有数学理解,可转而研究更简单的梯度流加损失曲率惩罚动力学。其他分析为更专业场景中的随机动力学发展了类似刻画。将该刻画完整扩展到随机与自适应优化器,将为我们提供推理优化超参数对训练轨迹隐式影响的通用语言。接下来仍需理解这些训练轨迹修改如何影响学习网络的属性。
图 5:网络参数化理论支持跨宽度学习率迁移。在 WikiText-2 上训练的不同宽度 Transformer 模型,在标准参数化(左)与 µP(右)下的训练损失与学习率关系。标准参数化下,最优学习率随模型宽度增加而减小;µP 下,最优学习率在不同宽度下几乎恒定,可通过窄、低成本模型的实验预测宽网络学习率。
解耦架构超参数与优化超参数
一系列高度成功的工作旨在解耦架构超参数(宽度、深度、输出乘数)与优化超参数(学习率、初始化方差)。张量程序框架将这种分离显式化,将学习率等超参数写为,分离与尺度无关的系数与带指数
c
的宽度依赖因子。该工作进而提出:如何设置这些指数,以在无限宽度下保留有趣的训练行为?一个显著结论是:所有非平凡、非爆炸的缩放仅产生两种极限行为,类比 rich/lazy 二分法:神经切参数化(NTP)中训练时特征冻结,最大更新参数化(µP)中特征演化。由于特征学习对大多数任务至关重要,该分析告诉我们应使用 µP,解决了超参数如何随模型宽度缩放的问题。这一理解实现了超参数迁移:可在小型代理模型上调优超参数,再迁移到大型生产模型 —— 当两个模型足够宽时,迁移后的超参数仍接近最优。
支撑该结果的理论是渐近的,未完全解释其实证有效性。实践中,模型训练宽度远小于数据集大小,迁移的有用性依赖最优超参数随宽度稳定的速度。Noci 等人(2024)、Ghosh 等人(2025)与 Hayou(2025)朝缩小这一差距迈出步伐,提供证据表明 µP 下少量谱统计量随宽度快速稳定,并近似支配最优超参数。这种以缩放为中心的超参数方法后被扩展到深度缩放,利用该方法处理其他缩放维度仍是重要未来方向。
5. 跨设定与跨任务的普适现象
深度学习并非每次都严格遵循单一配方:不同系统使用截然不同的架构、数据集、训练算法与目标函数,以创造性方式组合组件。这种多功能性使其在视觉、语言、语音、时间序列、蛋白质序列、游戏等大量任务与模态上取得成功,但模型多样性使科学理论的构建路径不清晰。这些多样场景是否共享可被科学捕捉的深层共性?
我们回顾越来越多的证据:这些多样场景中确实存在普适现象。这对理论是好消息:当许多不同复杂系统展现相同普适行为时,暗示可能存在简单的底层解释。我们从三个角度突出这种普适性:(1) 不同架构在许多任务上达到相近性能;(2) 不同数据集共享相似统计属性;(3) 跨架构与数据集学习到的表示与权重惊人相似。这大致类比物理系统中的普适性 —— 不同物理系统共享深层共性或在大尺度上表现相似行为。最后,我们重点介绍建模普适现象的理论成功。
图 6:跨架构与数据模态的普适性。(a) 不同扩散模型架构(从上到下:DDPM、一致性模型 —— 均基于 UNet—— 与 U-ViT)在给定相同输入噪声时,收敛到相同学习分布并生成完全相同的图像。(b) 随着语言模型性能(横轴)提升,其内部表示与视觉模型越来越相似,更大模型更明显(黄线到紫线)。
普适归纳偏置
给定任务的性能通常对架构、训练算法、目标函数的变化稳健,即许多替代选择仍能得到可解决任务的模型。一个著名例子是计算机视觉任务中卷积网络与 Transformer 的选择 —— 经大量辩论,在匹配算力、数据量与训练方案时,两者已被证明取得相似性能。在扩散模型中,这种相似性进一步在输入 - 输出映射层面得到证明:Transformer 与 UNet 在输入相同噪声样本时生成几乎相同的图像,如图 6 所示。这些结果强烈表明,尽管表面不同,不同架构共享相似的归纳偏置。作为部分解释,近期工作表明,假设对局部性与几何结构适应性的归纳偏置,可准确定量预测扩散生成模型的行为。
数据中的普适结构
“没有免费午餐” 定理表明,无法用通用学习策略在完全任意数据上泛化。因此,深度学习必须依赖所有成功数据集与模态共有的特定数据特征。例如,许多类别图像与音频信号共享幂律谱属性、稀疏模式、多尺度结构,可通过通用小波基分析。文本数据中的类似现象是齐普夫定律(词频服从幂律分布),在许多自然与人工语言中普遍成立。层次化、组合结构也常被用于建模图像与文本,有时可通过通用模型关联。这些共享统计属性部分解释了单一学习算法(如 SGD 训练的 Transformer)处理看似无关数据集的能力,仅需学习它们之间的细粒度差异。
表示中的普适性
深入网络内部,观察到不同网络学习到的表示在随机初始化、宽度、架构下都相似。已证明,训练以解决不同任务的网络,在跨训练数据集(ImageNet 与 Places-365)、目标函数(监督或自监督)、模态(视觉或语言)时学习相似表示。此外,这种相似性随模型规模与性能提升而增强,暗示神经激活收敛到普适(柏拉图式)表示,如图 6 所示。在随机特征表示等简化场景中,这种收敛是特征核大数定律的结果;在深度线性网络中,可被证明源于 SGD 的隐式正则化;在更多样场景中,近期证据表明表示普适性最终可追溯到数据中的普适结构。近期可辨识性理论进展也表明,在合适数据生成过程下,无监督、自监督与监督目标函数的全局最优解都会发生表示收敛。多项实证工作表明,这种相似性可延伸到单个神经元层面。部分案例中,人工神经网络与生物神经网络也发现相似表示,尽管对应程度仍有争议。尽管朝向相似性的全局趋势正在显现,收敛发生的场景范围与程度尚未完全明确。特别地,近期工作表明,这种向普适表示的明显收敛,关键依赖于跨相似性选择的比较度量。越来越多的文献致力于理解不同场景下应选择哪种表示相似性度量,并强调它们可统一的情况。
若大型模型学习的机制确实普适,对理论是极大鼓舞:跨许多系统共享的行为,应主要依赖所有系统共有的特征,因此可比单个模型更简单地描述。此外,若训练神经网络的内部结构主要反映数据结构,那么研究神经网络最终将是研究数据结构及其生成过程。特别地,由于语言数据直接来自人类,理解其结构可能教会我们关于自身的全新基本事实。
【与其他视角的关系】
目前有多种构建深度学习解释性科学理论的路径,各采用不同视角与工具集。我们认为这些视角本质上互补:要么直接追求学习力学,要么能与学习力学共生受益。
统计视角
经典学习理论的丰富传统至今仍具影响力。Bartlett 等人(2021)清晰总结其核心框架:任何统计预测方法都必须平衡表达能力(表示真实数据的丰富性)、复杂度控制(充分利用有限训练数据)与计算效率(生成实用算法)。显然深度学习具备足够表达能力,但不清楚如何从巨大函数类中选择好函数,也不理解为何简单梯度方法足以训练如此复杂的模型。现代统计观点给出两个答案:深度学习对简单、泛化能力强的函数具有隐式归纳偏置;尽管非凸,神经网络的极高维度(过参数化)使优化变得容易。
这些问题很好,我们认为答案基本正确。现在的挑战是在神经网络场景中使其精确。显然,这需要仔细研究训练过程的本质。只有这样,才能厘清这种隐式偏置的来源,以及梯度方法为何足以优化。我们不认为这些答案是通用表述,而是关键依赖深度学习与自然数据的重要属性。因此,统计视角自然导向对训练力学的严肃科学研究。
信息论视角
密切相关的路径试图用信息论思想解释深度学习。该视角认为,学习是从数据中提取信息的过程,学习系统有效当且仅当它提取对预测有用的信息、丢弃无关信息。该视角希望将学习理解为将数据集压缩到模型参数或隐层表示,成功压缩则带来良好泛化。
我们认为该视角富有洞见,大概率成立。与统计视角类似,剩余主要问题是如何使该观点具体可操作:深度学习的架构与训练过程如何相互作用实现这种压缩?哪些因素影响压缩效果?这同样需要仔细研究训练过程、架构、数据及其相互作用。因此,信息论视角也自然导向对训练力学的严肃科学研究。
深度学习物理学
该社群源于早期机器学习物理学谱系,本质上追求令人满意的神经网络学习平均情况理论。2024 年诺贝尔物理学奖认可了物理与机器学习的密切关系。该路径符合(并很大程度上塑造)本文提出的视角,该社群的工作可被认为是学习力学的构建。挑战在于厘清重要问题并协调努力以高效推进。
神经科学视角
多种理解大脑的科学路径为深度学习科学提供借鉴。一种路径从神经系统假设出发(如计算等价于某种近似概率推理),并从假设中做出推演与预测。这些预测在深度学习中惊人吻合:例如视觉皮层中的边缘选择细胞与卷积网络中的边缘感受野。另一种被称为系统神经科学的路径,直接将大脑子集分解为可解释回路,并逆向工程其学习表示的结构。该路径类似机制可解释性,后者借鉴了其部分方法与直觉。
我们预期并鼓励这种对话继续,关于大脑的高层假设(如大脑至少可部分分解为可解释回路、局部回路隐式求解推理任务)很可能也适用于深度学习。这些事实若成立,其原因必然与学习实际发生的动力学过程紧密相关。因此,学习力学研究对这些想法的持续探索至关重要。
发展可解释性 / 奇异学习理论
该路径源于机制可解释性社群,基于 Watanabe(2009)的奇异学习理论框架,寻求神经网络学习的第一性原理预测理论,强调贝叶斯视角,旨在将训练理解为由损失曲面几何介导的序列相变过程。我们认为该社群与本文追求相同目标 —— 深度学习的基础力学、可解释性的严谨基础 —— 但工具集与其他路径不同。不同路径间存在丰硕的交叉授粉与工具共享潜力。
深度学习科学
从业者早已认识到,机器学习很大程度上是试错实践,系统化或有益。事实上,过去十年的快速实证进步很大程度上源于围绕公认基准任务的系统组织。尽管如此,大型模型的训练与应用仍更像炼金术而非科学。我们认为,学习过程的基础力学是这门科学最终建立的基石。
1. 学习力学 ⇄ 机制可解释性
我们专门讨论机制可解释性,因为存在独特的合作机会。机制可解释性旨在通过识别内部机制(特征、回路、学习算法)理解训练好的神经网络,这些机制导致其行为。其核心信念是:神经网络可被人类理解、可通过严谨实证逆向工程揭示的机制描述。该路径已取得成果:在大型模型中发现许多视觉显著或可解释的机制。
这是与我们互补的视角,带来绝佳的共生机会。截至撰写本文,机制可解释性仍主要是定性科学,更依赖人类判断的实证而非紧凑数学原理或简单支配定律。这很自然:语义有意义的函数难以用数学刻画。另一方面,学习力学按定义是定量的,但同样无法单独回答重要的语义意义问题。这些方法研究同一系统(深度学习),但抽象层次不同,因此能够且应该协同合作。对可解释性严谨基础的呼吁日益强烈,这正是学习力学能够且应该帮助提供的。反过来,机制可解释性为学习力学提供丰富且不断增长的实证现象库,适合构建解释性数学理论。
学习力学 → 机制可解释性
我们强调学习力学支持机制可解释性的两条互补路径:形式化核心假设与解释训练中机制如何形成。
形式化核心假设
学习力学可明确、形式化并在必要时挑战指导可解释性研究的核心且通常隐含的假设,包括:
线性可表示性:特征对应激活空间中有意义的方向;
局部性:特征与回路可定位到模型组件的特定子集;
稀疏性:单个特征与回路仅在小部分输入上激活或功能相关;
组合性:复杂网络表示与计算由更简单、模块化子机制组合而成。
这些核心假设支撑了机制可解释性研究中训练神经网络内部机制的识别、分离与分析。学习的数学理论提供了一种方法,厘清这些假设成立的场景、失效的条件,以及它们可从训练动力学与数据统计中推导的意义。
解释训练中机制如何形成
机制可解释性通常优先描述训练神经网络学到的机制,仍有丰富机会研究这些机制如何及为何形成。可解释性社群内部已对这种动力学 / 理论视角产生浓厚兴趣,包括归纳头形成、顿悟与进展度量、回路形成的突然相变、发展可解释性研究计划。我们的目标不是替代这些努力,而是鼓励机制可解释性与学习力学中基于数学的思想工具更广泛、更深入的结合。呼应 Saphra(2022),我们希望学习力学能扮演类似生物学中进化论的角色:正如 “生物学中的一切,只有在进化论的光照下才有意义”,训练网络的内部机制,只有在其形成过程的光照下才能最自然地被理解。
学习力学 ← 机制可解释性
反过来,学习力学深受机制可解释性实证发现的影响,这些发现常识别出需要第一性原理解释的具体现象。机制可解释性将数据结构置于分析中心,揭示输入结构与学习机制关系特别清晰的场景。相比之下,许多经典深度学习理论依赖高度简化的数据模型,导致理论预测与实际观察行为之间存在差距。通过这种方式,机制可解释性为学习力学提供具体、定义明确的理论建模目标,帮助缩小差距。
部分观察已对学习力学研究产生重要影响,包括上下文学习的归纳头涌现、代数任务中的傅里叶特征作用、数据相关结构产生的特征几何。正如物理学发展常由相邻领域的实证发现驱动,我们预期学习力学的进步将由认真对待实证现象(包括机制可解释性揭示的现象)并寻求解释的理论家推动。
【质疑与回应】
我们已论证深度学习的宏大数学理论可行,且构建该理论值得。这远非普遍观点,因此我们回应 “深度学习理论不可能或不值得努力” 的常见反驳。
质疑 1:优秀研究者数十年尝试构建深度学习理论,至今未成功。若存在理论,我们早已发现。
机器学习理论确实历史悠久,部分理论构建路径已被充分探索。为何现在应乐观?乐观理由有三:
深度学习的实际成功相对较新,我们拥有大量新实证系统可研究、挖掘可解释现象。部分现象(如表示向普适性收敛)仅在近几年模型缩放后才显现。这些发展将深度学习理论的探索从数学转变为实证科学(且不乏可测量的有趣事物)。我们如今拥有更好的方法提问与检验答案,形成紧密反馈环。
领域规模大幅扩大:实证成功吸引了来自物理、数学、神经科学等相邻领域的研究者,更多元的头脑参与其中。
重大科学的发展通常至少需要数十年,因此未找到所有答案不应气馁。
质疑 2:当前理论理解的对象与大语言模型等相比非常原始。第一性原理理解大型模型难度过高。
我们预期逐步构建到 LLM 确实难度大、耗时久。近期希望是:深度学习基本构建块的部分理解,即便没有解释整个模型的构造性理论,仍可能有用。我们已在孤立领域看到这一点,包括经验缩放律、超参数缩放的数学规则、基于 NTK 的数据归因方法、基于理论的优化器。这些深度学习栈小片段的 “局部理论”,对大型模型的超参数缩放有用,尽管绝非完整模型理论!我们可期待类似有用的 “局部理论”,处理训练不稳定性、数据集选择与归因、归一化层的影响等主题。
同样需要强调:科学领域中正确基本对象的识别,往往使应用问题的提问更合理。例如,“万物由原子构成” 的理解支撑几乎所有其他基础科学,电磁学知识支撑无数应用学科的光学与放射工具。我们希望学习力学能为相邻领域(如机制可解释性)提供工具,助力其工作。因此,对基本对象的严谨研究,即便没有严谨的逐层构建理论,仍能助力大型模型的应用科学。
质疑 3:重要的是模型的高层行为。微观理论过于聚焦细节,无法看到这一点。
模型的高层行为确实重要。这如何与深度学习的低层科学兼容?我们认为深度学习可在物理、生物、心理三个层次研究,心理层次包括模型能力、人格与目标。很可能所有层次的研究都必要。学习力学(深度学习的物理学)离模型心理学最远,机制可解释性(生物学)居中并连接两者。
质疑 4:我们不需要深度学习理论,需要数据理论。
我们认为两者都需要:需要数据结构理论,也需要参数化模型如何学习数据的理论。我们提及构建有用数据理论的必要性。两者都是学习力学构建项目的一部分。
质疑 5:AI 会先理解自己,人类无需尝试构建理论。
这是当前人类智力活动的普遍担忧。回应有三:
理论已有用,且随发展影响会更大,因此这项科学工作很可能产生短期影响。
独立工作的 AI 不太可能突然 “解决深度学习理论”。过渡期内的突破性进步,更可能来自人类科学家使用或与 AI 合作,专家人类仍将参与其中。
若目标是 AI 安全,人类对 AI 系统的监督必不可少(除非信任 AI 完全自我监管),人类可理解的深度学习理论为我们提供了切入点。