马毅、沈向洋联手，首届CPAL开奖！16人获新星奖，华人学者占据半壁江山-51CTO.COM

就在昨天，首届CPAL简约学术会议，正式公布了新星奖获奖者名单！

CPAL专注于解决机器学习、信号处理、优化等领域中普遍存在的简约、低维结构问题，并探索低维结构在智能硬件与系统、交叉科学和工程等新兴方向的应用。

创办这个会议的出发点，就是将其设计为一个普遍的科学论坛，让科学和工程领域的研究人员能够聚集在一起，分享见解，并最终努力达成一个一致认同的现代计算理论框架，从简约学习的角度理解智能和科学。

而「新星奖」除了会表彰处于职业生涯关键转折点和起点的杰出初级研究人员外，还将为博士生、博士后、初级教师和业界研究人员提供一个平台和支持性指导网络，通过引导学术和职业的发展，进而增加这个领域的代表性和多样性。

获奖名单

CPAL新星奖要求申请者必须符合以下之一：博士生毕业前最后一年，博士后，任职助理教授第一年，或者工业界研究者博士毕业两年内。

今年，大会共收到了来自世界各地57份申请，所有候选人都展示了自己在机器学习、应用数学、信号处理、优化、系统，以及更多跨学科领域的杰出背景和专业知识，申请竞争极为激烈。

为此，由评审委员会主席陈羽北（现任UC Davis助理教授，此前为纽约大学Yan LeCun教授的博士后研究员）组织了评审委员会。每一个参与评审的资深研究员，都进行了非常认真的审查和投票（每个成员最多可投20票）。

具体来说，投票基于以下几个方面：1）研究的潜在影响；2）与CPAL主题的相关性；3）多样性和包容性。如果出现平票的情况，团队会进行额外的讨论来确定获奖者。

经过全面评估，大会最终选取了其中的16位，祝贺所有获奖者！

Lijun Ding，威斯康星大学/华盛顿大学，IFDS博士后研究员

题目：Optimization for statistical learning with low dimensional structure: regularity and conditioning

很多统计机器学习问题（旨在恢复底层低维信号）都以优化为基础。现有的工作往往忽视了解决优化问题的计算复杂性，或者需要针对具体情况进行算法和分析，尤其是非凸问题。

本研究从调节的统一视角来解决上述两个问题。其特别指出，一旦样本量超过固有维度，（1）一大类凸问题和非光滑非凸问题就会得到良好的条件；（2）良好的条件反过来又确保了开箱即用优化方法的效率，并激发了新算法的灵感。

最后，研究提出了一种称为「平坦性」（flatness）的条件概念，它能在超参数模型中实现精确恢复。

Ningyuan Huang，约翰斯·霍普金斯大学，博士生

题目：Approximately Equivariant Graph Networks

图神经网络（GNN）的置换同变性经常被拿来与卷积神经网络（CNN）的平移不变性相比较。然而，这两种对称性有着本质区别：CNN的是主动对称性，而GNN的是被动对称性。

本研究重点讨论了GNN的主动对称性，考虑到信号在固定图上的学习环境，GNN的自然对称性是图的自同构。

由于现实世界的图往往是不对称的，研究通过图粗化来形式化近似对称，从而放宽了对称的概念。研究提出了近似等变图网络来实现这些对称性，并研究了对称性模型选择问题。

研究从理论和经验上表明，根据所选的对称组，学习到的估计值在表现力损失和规则性增益之间存在偏差-方差权衡。

Daniel Paul Kunin，斯坦福大学，博士生

题目：Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks

本项研究揭示了随机梯度下降法（SGD）的一个隐含偏差，它能将表现力过强的网络转化为简单得多的子网络，从而显著减少独立参数的数量，提高泛化能力。

为了揭示这种偏差，研究确定了不变集，即在SGD下保持不变的参数空间的子集。并重点研究了其中两类与现代架构中常见的简单（稀疏或低秩）子网相对应的不变集。分析发现，SGD对这些简单的不变集具有随机吸引力。

研究建立了一个基于损失函数曲率和随机梯度引入的噪声之间竞争的充分条件来解释随机吸引性。值得注意的是，研究现噪声水平的增加会增强吸引力，导致出现与训练损失的鞍点或局部最大值相关的有吸引力的不变集。

研究从经验上观察到，在预训练的深度神经网络中存在有吸引力的不变量集，这意味着SGD常常会坍缩为具有消失或冗余神经元的简单子网络。研究进一步证明了这种随机坍缩的简化过程如何有利于泛化。

最后，通过这一分析，研究从机理上解释了为什么使用大学习率进行早期训练有助于后续的泛化。

Daniel LeJeune，斯坦福大学，博士后研究员

题目：Emergent properties of heuristics in machine learning

在现代机器学习实践中，成功的方法都是建立在设计者扎实的直觉和理论洞察力之上的，但最终往往都是启发式的，并表现出意想不到的涌现行为。有时，这些涌现行为是有害的，但令人惊讶的是，许多涌现行为却带来了意想不到的好处。

通过从理论上描述这些涌现行为，我们可以开发出更强大的方法开发流程，在这个流程中，越来越多的理想行为可以通过设计纳入其中，并以强大的方式加以利用。

本研究将讨论启发式方法和新兴行为的几个例子：线性回归中的子采样和草图技术及其与岭回归的等价性；经验风险最小化以及在分布变化下的相对性能的普适性；以及在dropout和特征学习模型中的适应性，这些模型等价于促进简约的稀疏或低秩正则化。

Shuang Li，爱荷华州立大学，助理教授

题目：The Future Geometric Analysis of Optimization Problems in Signal Processing and Machine Learning

高维数据分析和估计经常会出现在信号处理和机器学习应用之中。这些高维数据的低维结构，启发我们为信号处理和机器学习中的基本问题，开发最优化方法以及基于优化的技术。

近年来，非凸优化广泛出现在工程领域，并被许多启发式局部算法所解决，但缺乏全局保证。最近的几何/形态分析为确定迭代算法是否能达到全局最优提供了一种方法。

在一系列机器学习问题中，包括低秩矩阵因式分解、矩阵传感、矩阵补全和相位检索等，都对经验风险形态进行了广泛研究。有利的几何形状保证很多算法可以避开鞍点并收敛到局部最小值。

本研究将讨论未来信号处理和机器学习中优化问题几何分析的潜在方向。

Shiwei Liu，得克萨斯大学奥斯汀分校，IFML博士后研究员

题目：Sparsity in Neural Networks: Science and Practice

稀疏性通过有选择地消除大部分模型参数，在模型压缩领域表现出了卓越的性能。

为了发现强大的稀疏神经网络，通常需要先训练一个过参数化的密集模型，然后再进行剪枝和重新训练。但随着现代神经网络规模的指数级增长，密集预训练和更新的成本变得越来越高。

本研究将介绍一种无需任何预训练或密集更新，即可从头开始训练稀疏神经网络的方法。

通过在时间上实现过参数化的特性，该方法展示了在仅使用极少部分权重的情况下，实现与完全密集网络相当的性能水平的能力。

除了在模型压缩方面的优势外，研究还将阐明稀疏性在神经网络中更广泛的优势，包括可扩展性、鲁棒性、公平性，以及构建大规模负责任人工智能的巨大潜力。

Yiping Lu，纽约大学，柯朗讲师

题目：Simulation-Calibrated Scientific Machine Learning

机器学习（ML）在各种应用中取得了巨大成功，为复杂的高维数据提供了一种建立灵活、通用和高效近似值的新方法。

这些成功激励了许多研究人员将ML应用于其他科学应用领域，如工业工程、科学计算和运筹学等经常面临类似挑战的领域。

然而，大规模机器学习（尤其是深度学习）的数学理论仍然匮乏，经过训练的ML预测器总是存在偏差，这些长期存在的问题为ML的辉煌成就蒙上了阴影。

在这项研究中中，作者将介绍一个新颖的SCaSML框架，它可以利用物理模型的结构来实现以下目标：

1）即使基于有偏差的机器学习预测器，也能做出无偏的预测；

2）通过使用估计器克服维度灾难（the curse of dimensionality）。

SCASML范式将可能有偏差的机器学习算法，与使用严格数值分析和随机模拟的去偏差步骤设计相结合。

从理论上讲，作者将尝试了解SCaSML算法是否最优，以及哪些因素（如平滑度、维度和约束性）决定了收敛速度的提升。

从实证角度，作者将介绍不同的估计器，这些估计器能用有偏差的机器学习估计器对物理量进行无偏且可信的估计。

其应用包括但不限于估计函数矩、模拟高维随机过程、使用自助方法（bootstrap methods）进行不确定性量化以及随机线性代数。

Omar Montasser，加州大学伯克利分校，FODSI-Simons博士后研究员

题目：Theoretical Foundations of Adversarially Robust Learning

尽管取得了非凡的进步，但目前的机器学习系统在对抗性示例方面仍较弱：测试示例中看似无害，但经过精心设计的扰动会导致机器学习预测器分类错误。

我们能否学习对抗攻击鲁棒性的模型？对于机器学习中的这一重大挑战，实证研究界一直很感兴趣。

在研究中，作者将从理论角度进行阐述，说明超越传统方法和原则（如经验（鲁棒性）风险最小化）的必要性，并提出具有更强鲁棒性学习保证的新算法思想。

Ramchandran Muthukumar，约翰斯·霍普金斯大学，博士生

题目：Sparsity-aware generalization theory for deep neural networks

深度人工神经网络具有令人惊奇的泛化能力，但人们对这种能力的了解仍然很少。

在本文中，作者提出了一种分析深度前馈ReLU网络泛化的新方法，该方法利用了隐层激活的稀疏程度。

通过开发一个框架，考虑到每个输入样本的有效模型大小的减少，研究人员能够展示稀疏性和泛化之间的基本权衡。

重要的是，研究结果没有对模型实现的稀疏程度做出强烈的假设，而且比最近基于规范的方法有所改进。

研究通过有力的数字证明了结果，在特定环境下与依赖数据的先验相结合时，即使是在过度参数化的模型中，也不会出现非空界（non-vacuous bounds）。

Ambar Pal，约翰斯·霍普金斯大学，博士生

题目：The Role of Parsimonious Structures in Data for Trustworthy Machine Learning

这项研究概述了对抗鲁棒机器学习几何基础的最新理论成果。

现代ML分类器在受到特别设计的输入扰动（对抗示例）时，可能会严重失效。另一方面，在一些涉及视觉的任务中，我们人类鲁棒性更强。

受这种现象的启发，在本研究的第一部分，作者将深入探讨何时才能避免对抗样本的问题。

我们将看到，数据分布的一个关键几何特性——集中在输入空间的小体积子集上——决定了是否存在任何鲁棒分类器。特别是，这表明自然图像分布是集中的。

在本研究的第二部分，作者将针对一些集中的数据分布实证这些结果，并发现利用数据中的这种结构，可以训练出在某些情况下拥有更好的可证明鲁棒性保证的分类器

本研究内容也基于NeurIPS 2023, 2020和TMLR 2023的工作成果。

Rahul Parhi，洛桑联邦理工学院，博士后研究员

题目：On the Sparsity-Promoting Effect of Weight Decay in Deep Learning

深度学习在实践中取得了巨大成功，最先进的人工智能系统大多基于神经网络。然而，目前还缺乏一种严格的数学理论来充分解释深度神经网络的惊人性能。

在本讲座中，作者将介绍一个新的数学框架，为深入理解深度学习提供一个开端。

这个框架通过稀疏性的视角，精确地描述了训练有素的神经网络的功能特性。支持这一框架的关键数学工具包括变换域稀疏正则化、计算机断层扫描的Radon变换和逼近论（approximation theory）。

该框架解释了神经网络训练中权重衰减正则化的效果、网络架构中跳转连接和低秩权重矩阵的重要性、稀疏性在神经网络中的作用，并解释了神经网络为何能在高维问题中表现出色。

Bahareh Tolooshams，加州理工学院，博士后研究员

题目：Deep Interpretable Generative Learning for Science and Engineering

判别式人工智能和生成式人工智能是两种深度学习范式，它们彻底改变了根据文本提示预测和生成高质量图像的方法。

然而，判别式学习无法生成数据，而生成模型则在解码能力方面能力较弱。此外，这两种方法都需要大量数据，而且可解释性较低。

这些缺点严重阻碍了深度学习在以下方面的应用：a) 获取监督数据成本高昂或不可行；b) 目标超出数据拟合范围，无法获得科学见解。

此外，深度学习在逆问题等具有丰富数学和优化框架的领域，或在可解释性很重要的领域的应用还相当少。

这项研究将讨论深度学习在数据有限或无监督逆问题中的理论和应用。这些应用包括雷达传感、图像中「泊松去噪」和计算神经科学。

Hongyi Wang，卡内基梅隆大学，高级项目科学家

题目：Speeding up Large-Scale Machine Learning Model Development Using Low-Rank Models and Gradients

大规模机器学习（ML）模型，如GPT-4和Llama2，是人工智能领域最前沿的进展。

然而，开发这些大规模ML模型需要大量的计算资源，以及对分布式ML和系统的深刻理解。

在这项研究中，作者将介绍三个框架，即ATOMO、Pufferfish和Cuttlefish，它们使用模型梯度和模型权重的低阶近似来大大加快ML模型的训练。

- ATOMO 是一种通用压缩框架，实验证明，与稀疏梯度相比，使用低秩梯度可以大大加快分布式训练的速度。

- Pufferfish通过直接训练低秩模型，进一步绕过了压缩成本。不过，直接训练低秩模型通常会导致准确率下降。Pufferfish通过训练全秩模型，然后转换为低秩模型来缓解这一问题。不过，Pufferfish需要额外的超参数调整，例如确定从全秩模型到低秩模型的最佳转换时间。

- Cuttlefish通过在训练过程中自动估计和调整这些超参数来解决这个问题。

研究中详细介绍了大规模ML模型（包括LLM）分布式训练的大量实验结果，以展示这些框架的效果。

Peng Wang，密歇根大学，博士后研究员

题目：Understanding Hierarchical Representations in Deep Networks via Intermediate Features

在过去十年中，深度学习已被证明是一种从原始数据中学习有意义特征的高效方法。这项研究试图揭开深度网络中分层特征学习的神秘面纱。

具体来说，在多类分类问题中，作者研究了深度网络每层特征输出，来探索网络如何变换输入数据。

为此，研究人员首先分别定义了中间特征的「类内压缩」和「类间区分指标」。

通过对这两个指标的分析，他们发现，从浅层到深层，特征的演变遵循一个简单而量化的规律：线性网络的每一层都以线性速率逐步压缩「类内特征」，以亚线性速率提升「类间区分特征」。

据研究人员所知，这是首次对深度网络分层表示中的特征演化进行量化描述。此外，大量实验从数值上验证了这一理论发现。

Yaodong Yu，加州大学伯克利分校，博士生

题目：White-Box Transformers via Sparse Rate Reduction

这项研究中，作者将介绍白盒Transformer--CRATE（即编码RAte reduction Transformer）。

研究人员认为，表征学习的目标是压缩和转换数据分布（例如标记集），使其混合在不相干子空间上支持的低维高斯分布。

最终表示的质量可以用一个统一的目标函数——稀疏率降低来衡量。从这个角度来看，Transformer等流行的深度网络可以自然地被视为渐进优化这个目标的迭代方案。

特别是，研究人员展示了标准Transformer模块可以通过对这一目标的互补部分进行交替优化而推导：多头自注意力算子可被视为梯度下降步骤，通过最小化有损编码率来压缩标记集。

由此，这就产生了一系列在数学上可以解释的白盒Transformer架构。

最后实验表明，这些网络确实能学会优化设计目标：它们能压缩和稀疏化大规模真实世界视觉数据集（如 ImageNet）的表示，其性能非常接近精心设计的Transformer（ViTs）。

另外，作者还介绍了CRATE在涌现行为、语言建模和自动编码方面的一些最新理论和实证结果。

Ravid Shwartz Ziv，纽约大学，CDS特任研究员

题目：Decoding the Information Bottleneck in Self-Supervised Learning: Pathway to Optimal Representation

深度神经网络（DNN）在许多领域都表现出色，这主要归功于它们对监督学习任务的熟练掌握。

然而，当标注数据稀缺时，对大量标注数据的依赖就会成为制约因素。

自监督学习（SSL）是一种很有前途的方法，它利用无标记数据来学习有意义的表征。然而，自监督学习如何在没有明确标注的情况下，它对如何过滤不相关的信息仍不清楚。

在本研究中，作者以信息瓶颈原理为重点，从信息论的角度来揭开SSL奥秘。

信息瓶颈原理可以解释监督学习中压缩相关特征和保留信息的平衡，但在应用于SSL时，却因训练过程中缺乏标签而带来了难题。

研究人员将深入探讨SSL中「最优表示」的概念、它与数据增强、优化方法和下游任务的关系，以及SSL训练如何学习和实现最优表示。

研究中的讨论揭示了开创性发现，展示了SSL训练如何自然而然地创建与语义标签相关的最优、紧凑表征。

值得注意的是，SSL似乎能协调学习到的表征与语义类别在多个层次上的对齐，这种对齐在训练过程中不断加强，并在网络深层上变得更加明确。

最后，研究人员基于这些见解设计更强大的自监督学习信息算法，可提升迁移学习效果，建立更高效的学习系统，尤其是在数据稀缺的环境中。