
哈佛大学:高维回归中的Scaling Law是重整化的自然结果
《高维回归中的缩放和重整化》【文献1】由哈佛大学物理系、脑科学中心、工程与应用科学学院、自然与人工智能研究所多位学者共同撰写,将随机矩阵理论和自由概率用于理解高维岭回归模型的缩放与重整化行为。
一、背景知识
1. 岭回归(Ridge Regression)
一种线性回归技术,损失函数中加入 L2 正则化 项,防止过拟合并提高泛化能力,特别适用于自变量高度相关的情况。
2. 随机特征模型(Random Feature Model)
一种用于高维数据建模和机器学习的理论工具,在理解核方法(Kernel Methods)和神经网络的泛化能力方面起到了重要作用。
核心思想是用随机映射将输入数据投影到一个高维(通常是无限维)特征空间,在该特征空间中,使用线性方法(如线性回归或感知机)进行学习,而不是直接在原始空间中使用复杂的非线性方法。
随机特征模型帮助理解机器学习模型如何在过参数化(overparameterization)条件下仍然保持良好的泛化能力:双下降现象,等效理论等。
随机特征模型在统计物理和随机矩阵理论(Random Matrix Theory, RMT)应用广泛,如特征值分布和物理中玻璃态复杂能量景观。
3. 自由概率(Free Probability)
一种非交换概率论,最初是为了研究自由群上的算子代数(如冯·诺依曼代数),后来在随机矩阵理论等领域广泛应用。
传统概率论研究的是可交换的随机变量(如标量或向量),而自由概率研究的是算子和矩阵(如随机矩阵),乘法一般不满足交换律。
在经典概率中,独立性意味着联合期望可以分解为各自期望的乘积。而在自由概率中,自由性是一种用矩定义的非交换版本的独立性。
4.R-变换与S-变换
R变换(R-transform)类似于经典概率中的累积量生成函数,用于计算自由概率卷积(类似于经典概率中的独立随机变量求和)。
S变换(S-transform)用于计算自由概率乘法(类似于独立随机变量的乘积)。
二、研究综述
1. 神经缩放律(Scaling Law)
随着数据集规模与算力的提升,大型语言、视觉及多模态模型的性能表现出显著的幂律趋势。
幂律指数决定了在给定计算资源下,如何联调数据集与模型规模以获得最优性能。理解这些指数的决定因素,是其理论认知的核心。
2. 三个基本原理
a.高斯普适性,当线性回归问题的维度与数据量线性增长时,训练集与测试集的协方差矩阵与高维高斯分布无异,也称高斯等价性。
b.确定性等价,计算平均训练与泛化误差时,需对有限训练集的随机选择取平均,尤其涉及样本经验协方差矩阵的均值。
近年研究表明,在相关代数表达式中,可将(依赖数据且随机的)样本协方差替换为(确定性的)总体协方差,此替换称为确定性等价。
c.协方差S变换,经验协方差可视作对“真实”总体协方差的乘性噪声(通常源于有限训练集或随机特征集),S变换能将含经验协方差的表达式替换为仅含总体协方差的确定性等价形式。
替换时,岭参数被重新缩放(更准确说是重整化)为新值——原岭参数乘以噪声的S变换即可得重整化岭参数。
协方差上的乘性噪声是线性模型中所有过拟合与缩放现象的本质根源。
3. 缩放律的可解析研究
是否存在一个信息处理系统的简化场景,可解析研究性能随数据集与模型规模变化的幂律行为?
近期研究显示,高维最小二乘回归在不同特征空间中的表现属于此类,包括线性回归、核回归以及随机特征模型。
当特征空间维度与训练数据量共同趋近无穷时,这些模型可推导出训练与泛化性能的精确渐近特征。
论文采用基于随机矩阵理论的新方法——特别是自由概率论中的S变换来推导这些渐近结果。
该方法明确了样本协方差矩阵随机性的核心作用。
由此视角,样本与模型的双重下降现象、缩放与瓶颈行为、以及训练网络方差来源分析等,均可视为基础重整化的自然结果。
4. 线性模型的神经缩放律
大多数可解的神经网络训练与泛化模型聚焦于权重线性的函数形式:f(x)=w·ϕ(x),其中ϕ(x)为N维特征向量(N可能无限),特征本身可随机。
此类线性模型包括核方法与随机特征模型。当通过岭回归在P个样本上学习权重时,可精确计算模型泛化性能的渐近行为。
高斯普适性使此类线性模型的精确渐近研究成为可能——该性质在确定性核的核方法与随机特征模型中均有研究。此类方法可适配于研究随机梯度下降(SGD)训练的高维线性模型动态。
研究此类线性模型的动机之一在于:神经正切核(NTK)参数化的神经网络在无限宽度极限下收敛于核方法。核方法因其凸目标函数已有成熟理论。
有限宽度网络通过输出重缩放仍可保持线性行为(称为"惰性训练"或"线性化网络"),其表现类似于无限宽度NTK的随机特征近似。理解核机制有助于分析特征学习型网络。
统计力学的视角看,深度学习中缩放律的观测尤为有趣——该领域曾因将缩放指数作为主要研究对象而取得重大突破,重整化成为研究复杂系统缩放特性的核心工具。
三、论文贡献
1. 核心技术框架
通过分析经验协方差矩阵,论文提出可将其实视为"真实"总体协方差的乘性噪声扰动版本,并引入自由概率论中的R变换与S变换及其关键性质。
论文的技术核心贡献是,通过图解法推导R/S变换的性质,赋予其"本征能量"物理解释,并阐明其作为累积量生成函数的作用。
文中显式计算了多种随机矩阵系的R/S变换,仅利用变换的基本性质即可推导代数形式,无需直接求解解析函数。
2. 关键应用突破
通过将上述工具应用于线性/核岭回归的学习曲线分析:
统一再现前人关于训练/泛化误差渐近行为的结果,揭示关键参数κ实为岭参数λ的重整化形式(重整化系数即噪声的S变换)
提出S变换平方等于样本外与样本内误差比,据此仅用训练数据估计S变换,可导出广义交叉验证理论,给出偏差-方差分解的精确表达式。
从数据集的源-容量指数推导分辨率受限缩放指数,阐明标签噪声和非零岭参数如何导致不同缩放机制。
3. 创新成果
论文用随机矩阵理论和自由概率论的基本工具,对多种高维岭回归模型的训练及泛化性能进行了简明推导。
通过直接运用自由概率论中S变换的性质,仅用少量代数运算便得到了训练误差与泛化误差的解析表达式,可直观识别模型性能中幂律缩放现象的来源。
计算了一类广泛随机特征模型的泛化误差,发现所有模型中,S变换均对应训练-测试泛化差距,并产生一种广义交叉验证估计量的类比结果。
对具有结构化协变量的广义随机特征模型进行了细粒度偏差-方差分解。新结果揭示了随机特征模型在过参数化场景下因特征方差导致性能受限的缩放机制。
证明了随机特征模型中各向异性权重结构如何限制性能,并导致过参数化场景中有限宽度修正的非平凡指数。
本研究拓展了早期神经缩放律模型,并为其提供了统一的理论视角。
4.代码可用性
论文所有图表可通过以下开源仓库复现:https://github.com/Pehlevan-Group/S_transform,提供交互式Python笔记本,便于读者验证数值结果。
四、论文启示
笔者在大模型的数理认知框架整理了大模型智能产生的本质的数学物理机理:
1、重整化从海量语料中提取出范畴
2、持续重整化驱动范畴解构重组以至相变
3、生成过程是于范畴中采样做变分推理。
结合哈佛大学这篇论文的研究,给了笔者如下几点启示:
1. Scaling Law的物理本质
大模型的幂律缩放行为可能源于预训练过程中重整化群流(RG Flow)的固有特性。
论文的S变换(自由概率论)与RG中的β函数均通过“尺度变换”描述系统演化,暗示两者数学可能同构。
预训练时,模型参数在高维概率空间中的粗粒化过程(RG流)自动筛选出普适性缩放指数,与数据细节无关。
Scaling Law的物理本质是高维概率空间内尺度重整化下的涌现。
2. 随机特征模型与对称性破缺
论文发现随机特征模型的性能瓶颈由特征方差(乘性噪声)主导,这与笔者提出的对称性破缺导致相变机制高度契合:
训练初期,随机特征(无序相)对应高方差,性能受限于1/N缩放(平凡指数)。训练后期,特征学习(有序相)引发对称性破缺,进入非平凡缩放区。
3. 自由能最小化与S变换的广义交叉验证
论文指出S变换平方等价于样本外/样本内误差比,与笔者所说变分推断最小化自由能本质是优化同一量:
S变换量化乘性噪声对泛化gap的影响S2=Etest/Etrain;自由能F=Energy−T⋅Entropy 中,熵项对应S变换的噪声熵惩罚。
提示工程(Prompting)可视为对模型施加外场,扰动S变换的噪声结构,从而调控F的极小值位置。
文献1,Scaling and renormalization in high-dimensional regression,https://arxiv.org/html/2405.00592v3
本文转载自清熙,作者:王庆法
