尽管深度学习和人工智能已经成为家喻户晓的名词,但推动这场革命的统计学突破却鲜为人知。
在最近的一篇论文中,哥伦比亚大学的统计学教授Andrew Gelman和芬兰阿尔托大学的计算机科学教授Aki Vehtari详细列举了过去50年中最重要的统计学思想。
https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081
作者将这些统计学思想归类为8大类别:
- 反事实因果推断(counterfactual causal inference)
- 自举法和基于模拟的推断(bootstrapping and simulation-based inference)
- 超参数化模型和正则化(overparameterized models and regularization)
- 贝叶斯多级模型(Bayesian multilevel models)
- 通用计算算法(generic computation algorithms)
- 自适应决策分析(adaptive decision analysis)
- 鲁棒性推断(robust inference)
- 探索性数据分析(exploratory data analysis)
1. 反事实因果推断(counterfactual causal inference)
在假设条件下,因果识别是可能的,而且可以严格地陈述这些假设,并通过设计和分析以各种方式解决它们。
不同领域发展了不同的因果推断方法。在计量经济学中,是结构模型及其对平均治疗效果的影响,在流行病学中,是对观察数据的推断。
基于因果识别是认知的核心任务,因此应该是一个可以数学形式化的可计算问题。路径分析和因果发现可以根据潜在结果来构建,反之亦然。
2. 自举法和基于模拟的推断(bootstrapping and simulation-based inference)
统计学的一个趋势是用计算来替代数学分析,甚至在 「大数据 」分析开始之前就已经开始了。
自举法将估计视为数据的近似充分统计量,并将自举分布视为数据抽样分布的近似值。
同时,由于自举法的普遍性和简单的计算实现,让它能够应用在那些无法使用传统解析近似的场景,从而获得了极大的影响力。
在置换测试中,重采样数据集是通过随机打乱目标值来打破预测变量和目标之间的(可能的)依赖关系来生成的。
参数自举、先验和后验预测检查和基于模拟的校准都是从一个模型中创建复制的数据集,而不是直接从数据中重新取样。
在分析复杂的模型或算法时,从已知的数据生成机制中取样通常被用来创建模拟实验,以补充或取代数学理论。
3. 超参数化模型和正则化(overparameterized models and regularization)
统计学一个主要的变化是使用一些正则化程序来拟合具有大量参数的模型,从而获得稳定的估计和良好的预测。
这是为了在获得非参数或高度参数化方法的灵活性的同时,避免过度拟合问题。其中,正则化可以作为参数或预测曲线上的惩罚函数来实现。
模型的早期案例包括:马尔可夫随机场、样条曲线和高斯过程、分类和回归树 、神经网络、小波收缩、最小二乘法的替代方案以及支持向量机。
贝叶斯非参数先验在无限维概率模型族上也有了巨大的发展, 这些模型都有一个特点,就是随着样本量的扩大而扩大,而且参数并不总是有直接的解释,而是一个更大的预测系统的一部分。
4. 贝叶斯多级模型(Bayesian multilevel models)
多级或分层模型具有因组而异的参数,使模型能够适应集群抽样、纵向研究、时间序列横截面数据、荟萃分析和其他结构化设置。
多级模型可以被视为贝叶斯模型,因为它们包括未知潜在特征或变化参数的概率分布。相反,贝叶斯模型有一个多层次结构,具有给定参数的数据和给定超参数的参数的分布。
同样,贝叶斯推断不仅作为一种将先验信息与数据相结合的方式,而且也可以作为一种为推断和决策考虑不确定性的方式。
5. 通用计算算法(generic computation algorithms)
创新统计算法是在统计问题结构的背景下发展的。EM算法、吉布斯采样、粒子滤波器、变分推理和期望传播以不同的方式利用统计模型的条件独立结构。
梅特罗波利斯-黑斯廷斯算法和哈密顿蒙特卡罗较少受到统计问题的直接影响,它们与早期采用优化算法计算最小二乘和最大似然估计的方式相似。
被称为近似贝叶斯计算的方法通过模拟生成模型,而不是评估似然函数来获得后验推断,如果似然的分析形式难以解决或计算成本很高,那么就可以使用这种方法。
6. 自适应决策分析(adaptive decision analysis)
通过效用最大化、错误率控制和经验贝叶斯分析,以及在贝叶斯决策理论和错误发现率分析中,可以看出适应性决策分析的发展。
统计决策分析的一些重要发展涉及贝叶斯优化和强化学习,它们与 A/B 测试实验设计的复兴有关。
算力的发展,使得用高斯过程和神经网络等参数丰富模型作为函数先验,并执行大规模强化学习成为可能。例如创建AI来控制机器人,生成文本,并玩围棋等游戏。
这项工作大部分都是在统计之外完成的,使用的方法包括非负矩阵分解、非线性降维、生成对抗网络以及自编码器,而这些都是用于查找结构和分解的无监督学习方法。
7. 鲁棒性推断(robust inference)
鲁棒性的概念是现代统计学的核心,它的意义在于即使模型的假设不正确,也依然可以被使用。
统计理论的一个重要部分就是开发在违反这些假设的情况下运行良好的模型。
一般而言,鲁棒性在统计研究中的主要影响不在于特定方法的开发,而在于统计程序的评估,其中数据-生成过程不属于拟合概率模型的类别。
研究人员对鲁棒性的担忧与作为现代统计数据特征的密集参数化模型相关,这将对更普遍的模型评估产生影响。
8. 探索性数据分析(exploratory data analysis)
探索性数据分析强调渐近理论的局限性以及开放式探索和交流的相应好处。这符合统计建模的观点,也就是更侧重于发现而不是固定假设的检验。
计算的进步使从业者能够快速构建大型复杂模型,从而导致统计图形的思想有助于理解数据、拟合模型和预测之间的关系。
总结
由于建模的需求不可避免地随着计算能力的增长而增长,因此分析性的总结和近似的价值也是如此。
同时,统计理论可以帮助理解统计方法的工作原理,数学逻辑可以激发数据分析的新模型和方法。
作者认为这些方法开启了对统计的新思考方式和数据分析的新方法。
反事实框架将因果推断置于统计或预测框架内,在该框架中,可以根据统计模型中未观察到的数据精确定义和表达因果估计,并与调查抽样和缺失数据插补中的思想联系起来。
自举法打开了一种隐式非参数建模形式的大门。可用于复杂调查、实验设计和其他无法进行分析计算的数据结构的偏差校正和方差估计。
过参数化模型和正则化基于从数据中估计其参数的能力来形式化和概括了现有的限制模型大小的做法,这与交叉验证和信息标准有关。其中,正则化允许用户在模型中包含更多的预测变量,而不必担心过度拟合。
多级模型形式化了从数据中估计先验分布的「经验贝叶斯」技术,在更广泛的问题类别中使用具有更高计算和推理稳定性的方法。
通用计算算法使应用从业者能够快速拟合用于因果推理、多级分析、强化学习和许多其他领域的高级模型,从而对统计学和机器学习中的核心思想产生更广泛的影响。
自适应决策分析将最优控制的工程问题与统计学习领域联系起来,远远超出了经典的实验设计。
鲁棒性推断允许对不同程序进行正式评估和建模的方式来构建这些问题,以处理对异常值和模型错误指定的其他模糊问题,而鲁棒推理的想法为非参数估计提供了信息。
探索性数据分析将图形技术和发现推向了统计实践的主流,使用这些工具来更好地理解和诊断适合数据的新的复杂概率模型类别的问题。
作者介绍
Andrew Gelman 是哥伦比亚大学统计学教授。他曾获得美国统计学会杰出统计应用奖、统计学会主席理事会40岁以下杰出贡献奖。