译者 | 朱先忠
审校 | 梁策 孙淑娟
摘要
基于人工智能(AI)的系统前景广阔,且被越来越多地用于协助完成各种复杂任务。但由于存在不确定性的挑战,结果并不完全可靠。不确定性量化(UQ)在减少优化和决策过程中的不确定性方面起着关键作用,可用于解决科学、商业和工程领域的各种实际应用。
本文简要介绍了不确定性的概念、来源、类型和测量方法,然后总结了使用贝叶斯技术的大量UQ方法,指出了现有文献中存在的问题和差距,并提出进一步的发展方向,并对打击人工智能金融犯罪的应用案例进行了概述。
引言
近年来,人们越来越需要使用基于人工智能的系统,这些系统本质上是主动系统,需要根据环境中的事件或变化自动采取行动。这些系统跨越许多领域,从活动数据库到驱动当今企业核心业务流程的应用程序。然而,在许多情况下,系统必须响应的事件不是由监控工具生成的,而是必须根据复杂的时态谓词从其他事件中推断出来的。机器学习(ML)模型根据其训练数据生成最优解。在许多应用中,这样的推理本质上是不确定的。然而,如果不考虑数据和模型参数中的不确定性,这种最佳解决方案在现实世界部署中仍然存在很高的失败风险。
典型的基于人工智能的系统管道包括数据收集、数据预处理、选择模型从数据中学习、选择学习算法训练所需模型以及从所学习的模型中得出推论等环节。然而,这些步骤中的每一步都存在固有的不确定性。例如,数据不确定性可能源于无法可靠地收集或表示真实世界的数据。数据预处理中的缺陷——无论是在固化、清洗还是标记过程中——也会造成数据不确定性。由于模型仅作为现实世界的代理,而学习和推理算法依赖于各种简化假设,因此它们导致了建模和推理中的不确定性。
人工智能系统做出的预测容易受到所有这些不确定性来源的影响,可靠的不确定性评估为人工智能系统的开发者和用户提供了重要的判断依据。例如,高数据不确定性可能意味着改进数据描述过程,而高模型不确定性可能意味着需要收集更多数据。对于用户来说,准确的不确定性,尤其是与有效的沟通策略相结合时,可以增添一个透明度和信任度的关键层,这对于更优的人工智能辅助决策至关重要。给予人工智能系统这种信任对于它们在医学、金融和社会科学等高风险应用中的可靠部署至关重要。
人工智能系统中已经提出了许多改进UQ的方法,然而选择一种特定的UQ方法取决于许多因素:基础模型、机器学习任务的类型(回归、分类与分割)、数据的特征、机器学习模型的透明度和最终目标等等。如果使用不当,特定的UQ方法可能会产生较差的不确定性估计,并误导用户。此外,如果沟通不畅,即使是高度准确的不确定性估计也可能会产生误导。
本文对不确定性的类型及其来源进行了扩展介绍,讨论了UQ方法,将不确定性建模形式化,并阐述了其在复杂系统中的概念。本文概述了ML中使用贝叶斯技术量化不确定性的不同方法。此外,在不同的机器学习任务中,如分类、回归和分割,不确定性测量的评估也受到关注。本文提供了UQ方法中的校准术语,填补了文献中的空白,展示了UQ在金融犯罪领域的实际应用,并为此类系统制定了通用评估框架。
任意不确定性
任意不确定性(Aleatoric Uncertainty,又称为“统计不确定性”),代表每次进行相同实验时不同的未知量。任意不确定性是指由于概率可变性而产生的固有不确定性。这种类型的不确定性是不可减少的,因为基本变量总是存在可变性。这些不确定性以概率分布为特征。例如,使用机械弓箭发射的一支箭在每次发射完全相同(相同的加速度、高度、方向和最终速度),由于箭杆的随机和复杂振动,不会影响目标上的同一点,无法充分确定这类知识以消除由此造成的碰撞点分散。
认知不确定性
认知不确定性(Epistemic Uncertainty,又称“系统不确定性”)是指那些由于人们在原则上可以知道但在实践中却不知道的事情。认知不确定性是过程模型中的科学不确定性,这是因为数据和知识有限。认知不确定性以替代模型为特征。对于离散随机变量,认知不确定性采用替代概率分布建模。这种不确定性来源的一个例子是一项旨在测量地球表面附近重力加速度的实验。常用的9.8m/s²重力加速度忽略了空气阻力的影响,但我们可以测量物体的空气阻力并将其纳入实验,以减少重力加速度计算中产生的不确定性。
任意性和认知不确定性相互作用
任意不确定性和认知不确定性也可以在单个术语中同时发生——例如,当实验参数显示任意不确定性并且这些实验参数被输入计算机模拟时。如果用于不确定性量化,则使用替代模型,例如高斯过程或者多项式混沌展开(Polynomial Chaos Expansion),是从计算机实验中得知的,这样的替代表现出认知不确定性,它依赖于实验参数的任意不确定性,或与之相互作用。这种不确定性不能再单独归类为任意性或认知性,而是一种更普遍的推理不确定性。在实际应用中,这两种不确定性都存在。不确定性量化旨在分别明确表示这两种类型的不确定性。
任意不确定性的量化可能相对简单,其中传统(频繁)概率是最基本的形式。例如蒙特卡罗方法等经常被使用的技术。为了评估认知不确定性,需要努力理解对于系统、过程或机制相关知识的缺乏。认知不确定性通常是通过贝叶斯概率的视角来理解的,因为概率被解释为表明理性的人对某一特定主张的确定程度。
模型与数据不确定性
模型不确定性包括由模型缺陷引起的不确定性,这些缺陷可能是由于训练过程中使用了不充分的模型结构所导致的错误,或者是由于未知样本或训练数据集覆盖率差而导致的知识缺乏。与此相反,数据不确定性与直接源于数据的不确定性有关。数据不确定性是由在数据样本中表示真实世界并表示分布时的信息丢失引起的。模型不确定性包括由模型缺陷引起的不确定性,这些缺陷可能是由于训练过程中的错误、模型结构不足,或由于未知样本或训练数据集覆盖率差而导致的知识缺乏。与此相反,数据不确定性与直接源于数据的不确定性有关。数据不确定性是由在数据样本中表示真实世界和表示分布时的信息丢失引起的。
例如,在回归任务中,输入和目标测量中的噪声会导致网络无法学会纠正的数据不确定性。在分类任务中,如果样本包含的信息不足以100%确定地识别一个类别,则会导致预测数据的不确定性。信息丢失是测量系统的结果,例如,因为使用某种具体分辨率的图像像素来表示真实世界的信息所导致,或通过标记过程中的错误所导致。
虽然理论上可以通过改进体系结构、学习过程或训练数据集来减少模型的不确定性,但无法解释数据的不确定性。
预测不确定性
根据输入数据域,预测不确定性也可分为三大类:
- 域内不确定性:表示与从假定等于训练数据分布的数据分布中提取的输入相关的不确定性。域内不确定性源于深度神经网络由于缺乏域内知识而无法解释域内样本。从建模者的角度来看,域内的不确定性是由设计错误(模型不确定性)和手头问题的复杂性(数据不确定性)引起的。根据域内不确定性的来源,可以通过提高训练数据(集)或训练过程的质量来减少不确定性。
- 域转移不确定性:表示与从训练分布的转移版本中提取的输入相关的不确定性。这种分布变化是由于训练数据的覆盖率不足以及现实情况固有的可变性造成的。由于DNN无法在训练时解释基于样本的域转移样本,域转移可能会增加不确定性。可以对一些导致域转移不确定性的错误进行建模,从而可以减少相应的错误。
- 域外不确定性:表示与来自未知数据子空间的输入相关的不确定性。未知数据的分布与训练分布大有差异。例如,当域转移不确定性描述诸如狗的模糊图像等现象时,域外不确定性就是学习猫和狗分类的网络被要求预测鸟的情况。域外不确定性的来源是深度神经网络(DNN)由于缺乏域外知识而无法解释域外样本。从建模者的角度来看,域外不确定性是由输入样本引起的,其中网络不打算对训练数据进行预测或者训练数据不足。
图1:不确定性类型
不确定性与可变性
技术专家经常被要求估算不确定量的“范围”。重要的是,他们要区分是被要求提供可变性范围还是不确定性范围。同样,对于建模者来说,了解他们是否正在构建可变性或不确定性的模型以及它们之间的关系(如果有的话)也很重要。
不确定性的来源
- 参数不确定性:它来自于输入到数学模型中的模型参数,但其精确值对实验人员来说是未知的,在物理实验中无法控制或者其值无法通过统计方法精确推断。例如,落物实验中的局部自由落体加速度计算中就包含了参数不确定性。
- 参数可变性:它来自模型输入变量的可变性。例如,数据中的尺寸可能与假设的尺寸不完全相同,这将导致在高维数据集上训练的模型的性能发生变化。
- 结构不确定性:又名模型不足、模型偏差或模型差异,它源于对问题的基本物理或原理缺乏了解。考虑到模型几乎总是接近现实,这取决于数学模型在现实生活中描述真实系统的准确程度。例如,使用自由落体模型对下落物体的过程进行建模时,模型本身是不准确的,因为总是存在空气摩擦。在这种情况下,即使模型中没有未知参数,模型和真实物理之间仍然存在差异。当我们对模型输出不确定时,就会出现结构不确定性,因为我们对模型的功能形式尚不确定。
- 算法不确定性:又名数值不确定性,或离散不确定性。这种类型来自每个计算机模型实现的数值误差和数值近似值。大多数模型太复杂,无法精确求解。例如,可以使用有限元法或有限差分法来近似解偏微分方程(这会引入数值误差)。
- 实验不确定性:又名观测误差。它来自于实验测量的可变性。实验不确定性是不可避免的,可以通过对所有输入/变量使用完全相同的设置进行多次重复测量来发现此种不确定性。
- 插值不确定性:这是因为缺乏从模型模拟和/或实验测量中收集的可用数据。对于没有模拟数据或实验测量的其他输入设置时,必须进行插值或外推,以便预测相应的响应数据。
问题类型
不确定性量化中有两类主要问题:一种是不确定性的正向传播(不确定性的各种来源通过模型传播,以预测系统响应中的整体不确定性),另一种是模型不确定性和参数不确定性的反向评估(使用测试数据同时校准模型参数)。
不确定性的正向传播
不确定性传播是对不确定性输入传播的系统输出中的不确定性进行量化。它着重于不确定性来源中列出的参数可变性对输出的影响。不确定性传播分析的目标可以是:
- 评估输出的低阶矩,即均值和方差
- 评估输出的可靠性
- 评估输出的完整概率分布
模型不确定性和参数不确定性的反向评估
假如已经取得了系统的一些实验测量数据及其数学模型的一些计算机模拟结果,反向不确定性量化既估计实验和数学模型之间的差异(称为偏差校正),也估计模型中存在的未知参数值(称为参数校准或简单校准)。一般来说,这是一个比正向不确定性传播困难得多的问题,但因为它通常在模型更新过程中实现所以非常重要。
反向不确定性量化有几种情况:
- 仅偏差修正:偏差修正量化了模型的不足,即实验和数学模型之间的差异。
- 仅参数校准:参数校准会估计数学模型中一个或多个未知参数的值。
- 偏差修正和参数校准:考虑具有一个或多个未知参数的不准确模型,其模型更新公式将两者结合在一起:这是最全面的模型更新公式,包括所有可能的不确定性来源,需要尽最大努力解决。
图2:不确定性量化中的问题类型
数学表示
正如我们前面所提及的(图1),预测不确定性由两部分组成:认知不确定性和任意不确定性,可以像下面这样写成这两部分的总和:
认知不确定性可以表示为模型参数的概率分布。
令:
表示包含以下输入的训练数据集:
与它们的相应分类:
其中:C表示分类的数量。目的是优化生成期望的输出结果的以下函数的ω参数:
为了实现这一点,使用贝叶斯方法定义了一个模型似然函数:
对于分类,可使用下面的softmax似然函数:
等式1
对于回归,可以假设高斯似然:
等式2
上式中,τ表示模型精度。而后验分布:
针对一个给定的数据集(在ω上的训练):
通过应用Bayes定理,可以写出如下形式:
等式3
对于给定的样本x*,关于p(ω|x,y)的分类标签可以预测为:
等式4
这个过程被称为推理或边缘化。然而:
不能用解析方法计算,但可以用变分参数来近似:
其目的是近似一个分布,该分布接近由该模型获得的后验分布。因此,关于精度τ的Kullback-Leibler(KL)散度需要最小化。这两种分布之间的相似程度可以通过以下方式衡量:
等式5
预测分布可以通过最小化KL散度来近似,如下所示:
等式6
其中:
代表目标表明。KL散度最小化也可以重新安排为证据下界(ELBO)最大化:
等式7
其中:
通过最大化第一项,能够很好地描述数据,通过最小化第二项,能够尽可能接近前一项。这个过程被称为变分推理(VI)。Dropout变分推理是最常用方法之一,已在复杂模型中广泛用于近似推理。最小化目标如下:
等式8
其中N和P分别代表样本数和丢弃概率。要获得与数据相关的不确定性,上面等式2中的精度τ可表示为数据的函数。获得认知不确定性的一种方法是混合两种函数。其中,
预测平均值函数是fθ(x),模型精度函数是gθ(x)。
这样的话,似然函数可以写成:
将先验分布置于模型的权重之上,然后计算给定数据样本的权重变化量。欧几里德距离损失函数可以调整如下:
等式9
预测方差可通过以下方式获得:
等式10
可选方法
人们已经做了很多研究来解决不确定性量化问题,尽管其中大多数是处理不确定性传播的问题。在过去的一到二十年中,人们还开发了许多反向不确定性量化的方法,并已证明对大多数中小型问题有用。
图3:不确定性量化的选择性方法
正向传播
- 基于模拟的方法:蒙特卡罗模拟、重要性抽样、自适应抽样等。
- 基于代理的通用方法:在非侵入性方法中,可以使用一种学习代理模型来实现廉价且快速的近似代替实验或模拟之目的。基于代理的方法也可以以完全贝叶斯的方式来使用。当采样成本(例如计算成本高昂的模拟)过高时,这种方法会特别有效。
- 基于局部展开的方法:泰勒级数、摄动法等。这些方法在处理相对较小的输入变量和不表现高度非线性的输出时具有优势。这些线性或线性化方法在不确定性传播有关文章中有详细介绍。
- 基于函数展开的方法:Neumann展开、正交或Karhunen–Loeve展开(KLE),以及作为特例的多项式混沌展开(PCE)和小波展开。
- 基于最可能点(MPP)的方法:一阶可靠性方法(FORM)和二阶可靠性方法(SORM)。
- 基于数值积分的方法:全因子数值积分(FFNI)和降维(DR)。
对于非概率方法,区间分析、模糊理论、可能性理论和证据理论是应用最广泛的方法之一。
概率方法被认为是工程设计中最严格的不确定性分析方法,因为它与决策分析理论一致。它的基石是计算抽样统计的概率密度函数。对于可以通过高斯变量变换获得的随机变量,这点可以严格执行从而得到精确的置信区间。
反向不确定性
1.频率学派:参数估计的标准误差很容易获得,可以扩展为置信区间。
2.贝叶斯学派:贝叶斯框架下存在几种反向不确定性量化方法。最复杂的方向是解决偏差校正和参数校准的问题。这些问题的挑战不仅包括模型不足和参数不确定性的影响,还包括缺乏来自计算机模拟和实验的数据。一种常见的情况是,在实验和模拟中输入环境不同。另一种常见情况是,从实验中得出的参数被输入到模拟中。对于计算成本较高的模拟,通常需要一个替代模型,例如高斯过程或多项式混沌展开,从而定义一个反向问题,以便找到最接近模拟的替代模型。
3.模块化方法:反向不确定性量化的方法是模块化贝叶斯方法。模块化贝叶斯方法的名字来源于其中的四个模块的过程。除了当前可用的数据外,还应指定未知参数的先验分布。
- 针对模型的高斯过程建模:为了解决缺乏仿真结果的问题,将计算机模型替换为高斯过程(GP)模型
- 针对差异函数的高斯过程建模:类似地,对于第一个模块,用GP模型替换异函数
- 未知参数的后验分布:贝叶斯定理用于计算未知参数的后验分布
- 实验反应和差异函数的预测
4. 完全方法:完全贝叶斯方法不仅要分配未知参数的先验,还要分配其他超参数的先验。
图4:使用贝叶斯技术的不确定性量化
机器学习中的不确定性量化
图5:机器学习中不确定性量化的分类
评估分类
- 分类任务中的测量数据不确定性:给定预测,概率向量表示分类分布,即它为每个类别分配一个概率,使其成为正确的预测。由于预测不是作为一个显式类别而是作为一个概率分布给出的,因此可以直接从预测中得出不确定性估计。一般来说,这种逐点预测可以被视为估计数据的不确定性。然而,模型对数据不确定性的估计受到模型不确定性的影响,必须单独考虑。为了评估预测数据不确定性的数量,可以应用最大分类概率或熵度量。最大概率表示确定性的直接表示,而熵表示随机变量中的平均信息水平。尽管如此,我们无法从一个单一的预测中分辨出影响这一特定预测的模型不确定性有多大。
- 分类任务中的测量模型不确定性:学习模型参数的近似后验分布有助于获得更优的不确定性估计。有了这种后验分布,就有可能评估随机变量的变化,即不确定性。最常见的测量方法是互信息(MI)、预期Kullback-Leibler散度(EKL)和预测方差。基本上,所有这些度量都是计算随机输出和预期输出之间的预期差异。当有关模型参数的知识不会增加最终预测中的信息时,MI最小。因此,MI可以解释为模型不确定性的度量。Kullback-Leibler散度度量两个给定概率分布之间的散度。EKL可用于测量可能输出之间的(预期)差异,也可解释为对模型输出不确定性的测量,因此代表模型不确定性。即使对于分析描述的分布来说,参数不确定性在预测中的传播几乎在所有情况下也都是难以解决的;因此,必须用蒙特卡罗近似来近似。
图6:模型的可视化和分类模型的分布不确定性
- 测量分类任务中的分布不确定性:虽然这些不确定性度量被广泛用于捕捉来自贝叶斯神经网络的多个预测之间的可变性,但集成方法无法捕捉输入数据或分布外样本中的分布变化,这可能会导致推理过程存在一定偏见并产生虚假的置信结果。如果所有预测因子都将高概率质量归因于同一(错误)类别标签,这将导致估计值之间的低可变性。因此,系统似乎对其预测是确定的,而预测本身的不确定性也在下面进行评估。
图7:模型的可视化和分类模型的分布不确定性
- 完整数据集上的性能度量:上述度量用来评估单个预测的性能,其他度量则用于评估这些度量在一组样本上的使用情况。不确定性度量可用于区分正确分类和错误分类的样本,或域内样本和分布外样本。为此,样本分为两组,例如域内和分布外,或正确分类和错误分类。两种最常见的是接收器操作特性曲线(Receiver Operating Characteristic,简称“ROC”)和精确率-召回率曲线(Precision-Recall,简称“PR”)。这两种方法都基于基础度量的不同阈值生成曲线。虽然ROC和PR曲线都给出了一个直观的概念,说明了基本度量在多大程度上适合于分离两个考虑过的测试用例,但它们并没有给出一个定性度量。为了达到这一点,可以评估曲线下的面积(AUC)。简要来看,AUC给出了一个概率值,即随机选择的阳性样本比随机选择的阴性样本导致更高的测量值。
评估回归
- 回归预测中的测量数据不确定性:与分类任务相比,回归任务只预测逐点估计,没有任何数据不确定性的暗示。处理这一问题的常用方法是,让网络预测概率分布的参数,例如,平均向量和正态分布不确定性的标准偏差,这样就直接给出了数据不确定性的度量。标准偏差的预测允许(未知)真实值在特定区域内的分析描述。以一定概率覆盖真值的区间(假设预测分布是正确的)是分位数函数,即累积概率函数的倒数。对于给定的概率值,分位数函数给出了一个边界。分位数假设某种概率分布,并将给定的预测解释为分布的预期值。
与此相反,其他方法则是直接预测所谓的预测区间(PI),其中假设存在预测。这样的区间会导致不确定性以均匀分布的形式出现,而不会给出具体的预测。顾名思义,这种方法的确定性可以通过预测区间的大小直接衡量。平均预测区间宽度(MPIW)可用于评估模型的平均确定性。为了评估预测间隔的正确性,可以应用预测间隔覆盖概率(PICP)。PCIP代表落入预测区间的测试预测的百分比。
- 回归预测中测量模型不确定性:模型不确定性主要由模型的结构、训练过程和训练数据中代表性不足的区域引起。因此,回归和分类任务之间的模型不确定性的原因和影响没有真正的区别;如此一来,回归任务中的模型不确定性可以像分类任务中已经描述的那样进行等效测量,例如在大多数情况下,通过近似平均预测和测量单个预测之间的差异来进行。
图8:模型的可视化和回归模型的分布不确定性
图9:模型的可视化和回归模型的分布不确定性
- 评估分割任务中的不确定性:评估分割任务中的不确定性与评估分类问题非常相似。分割任务中的不确定性使用贝叶斯推理的近似方法估计。在分割上下文中,像素级分割中的不确定性使用置信区间、预测方差、预测熵或互信息(MI)来测量。结构估计中的不确定性是通过对所有像素不确定性估计进行平均得到的。体积不确定性的质量通过评估变异系数、平均Dice分数或联合上的交点来评估。这些指标以成对的方式测量多个估计值之间在面积重叠方面的一致性。理想情况下,错误分割会导致像素和结构不确定性增加。为了验证是否存在这种情况,应评估像素级的真阳性率,以及不同不确定度阈值下保留像素的假检测率和ROC曲线。
校准
如果推导出的预测置信度代表了实际正确性概率的良好近似值,则称预测值为校准良好。因此,为了使用不确定度量化方法,必须确保系统经过良好校准。对于回归任务,可以定义校准,预测的置信区间应与根据数据集经验计算的置信区间相匹配。
通常,校准误差是由与模型不确定性相关的因素引起的。这一点从直觉上很容易理解,因为数据不确定性代表了潜在的不确定性,即输入x和目标y代表相同的真实世界信息。接下来,正确预测的数据不确定性将导致一个完美校准的系统。这一点很清楚,因为这些方法分别量化了模型和数据的不确定性,旨在减少预测中的模型不确定性。除了通过降低模型不确定性来改进校准的方法外,大量且不断增长的文献还研究了显式降低校准误差的方法。下节将介绍这些方法以及量化校准误差的措施。需要注意的是,这些方法不会减少模型的不确定性,而是将模型的不确定性传播到数据不确定性的表示上。
例如,如果二元分类器被过度拟合,并以概率1将测试集的所有样本预测为A类别,而一半的测试样本实际上是B类别,则重新校准方法可能会将网络输出映射到0.5,以获得可靠的置信度。0.5的概率不等于数据不确定性,但表示传播到预测数据不确定性上的模型不确定性。
校准方法
根据应用步骤,校准方法可分为三大类:
- 在训练阶段应用的规范方法:这些方法修改目标、优化和/或规范过程,以构建内在校准的系统和网络。
- 在模型的训练过程之后应用的后处理方法:这些方法需要一个保留的校准数据集来调整预测分数以进行重新校准。需要注意的是,它们只能在假设遗漏验证集的分布等同于基于推理的分布的情况下才可以工作。因此,验证数据集的大小也会影响校准结果。
- 神经网络不确定性估计方法:通过使用减少神经网络置信度预测中模型不确定性的方法,也会产生更好的校准预测值。这是因为剩余的预测数据不确定性更好地代表了预测的实际不确定性。例如,此类方法基于贝叶斯方法或深度集成(图4)。
真实世界的应用
NICE Actimize是以色列一家为区域和全球金融机构以及政府监管机构提供多种金融犯罪、风险和合规解决方案的供应商,他们利用创新技术保护机构、消费者以及投资者的资产,能够识别金融犯罪、防止欺诈并保障监管合规。该公司能够提供实时、跨渠道的欺诈预防、反洗钱检测和交易监控解决方案,从而有助于解决支付欺诈、网络犯罪、制裁监控、市场滥用、客户尽职调查和内幕交易等问题。
基于人工智能的系统和高级分析解决方案可以更早更快地发现异常行为,消除从盗窃、欺诈、监管处罚到制裁的财务损失。这样一来,有助于公司或组织减少各种损失、提高调查人员的工作效率,并改善法律合规和监督质量。
随着基于人工智能的系统在金融犯罪中的使用增多,量化和处理不确定性变得越来越重要。一方面,不确定性量化在风险最小化方面发挥着重要作用,这是预防欺诈所必需的。另一方面,有一些具有挑战性的数据源为欺诈调查提供了补充,只是这些数据很难核实。这使得生成可信的“地面真相”成为一项非常具有挑战性的任务。
Actimize公司的通用评估框架
为了应对上述问题,Activize公司提出了一个评估协议,其中包含各种具体的基线数据集和评估指标,涵盖了所有类型的不确定性,有助于推动不确定性量化研究。此外,他们还考虑了风险规避和最坏情况下的评估问题。这种通用协议使数据科学家们能够轻松地将不同类型的方法与既定基准与真实世界的数据集进行比较。
结论
不确定性量化(UQ)是基于人工智能的系统和决策过程的关键部分之一,它在评估各种实际应用中的不确定性时变得越来越普遍。如今,不确定性已经成为传统机器和深度学习方法不可分割的一部分,因此本文也对传统机器学习和深度学习中最重要的UQ概念和方法进行了一个相对全面的概述。
译者介绍
朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。早期专注各种微软技术(编著成ASP.NET AJX、Cocos 2d-X相关三本技术图书),近十多年投身于开源世界(熟悉流行全栈Web开发技术),了解基于OneNet/AliOS+Arduino/ESP32/树莓派等物联网开发技术与Scala+Hadoop+Spark+Flink等大数据开发技术。
原文标题:Uncertainty Quantification in Artificial Intelligence-based Systems,作者:Danny Butvinik