机器学习之模型管理：集成建模-机器学习训练模型

译者 | 崔皓

审校 | 孙淑娟

开篇

机器学习被企业应用到不同的业务场景解决不同的业务问题，随着机器学习的广泛应用也让组织在选择学习方法时不堪重负。

很多组织在机器学习的应用中使用了高级和经典的学习方法。有大家熟悉的监督学习和无监督学习二分法，还有例如对比学习、强化学习和自我监督学习等机器学习的新兴变体。

此外，还有涉及图形分析、深度神经网络、分割、行为分析和其他技术。当面对大规模复杂业务问题时——例如加强反洗钱措施从而打击金融犯罪——组织如何决定使用哪种机器学习的方法呢？

使用集成建模，让这个问题变得不那么重要了。这种机器学习方法使组织能够利用各种模型并将它们与预测准确性结合起来，从而获得最佳结果。

这种方法帮助金融服务、欺诈检测和网络安全中的高维数据提供完整上下文。使用集成建模的组织表示“集成建模让模型的建立更加多样化“，Resistant AI首席执行官Martin Rehak 承认，“我们并不希望单一模型一枝独秀。”

使用模型的多样性使组织能够用不同的算法来评估业务问题的各个方面，以便采用完全知情的、一致的决策方法——这些方法是可以解释的。

基于共识的模型决策

前面提到的集成建模的原理是毋庸置疑的，数据科学家无需花费大量时间来为业务案例设计完美的模型，只需要将那些不完美的模型组合起来产生预测能力。“当你以集成方法看待机器学习时，你会从小型算法中做出决策，”Rehak 指出。“而且，在我们的案例中，这些算法是针对每笔交易动态组合的，以便做出最佳决策。” 更重要的是，也许这些模型中的每一个都可以专注于某一个垂直领域，例如识别洗钱事件。

例如，一种模型只专注于交易的规模。另一个模型专注于交易的位置。不同的模型可以检查出哪些特定参与者参与了交易。目标是“没有出现任何峰值”的情况，Rehak 解释说。“模型的分布非常平坦，与模型对应的证据页相对较弱。通过结合许多弱证据元素，就能够做出更强有力的决定。” 另一个好处是，通过经典的机器学习和更简单的模型，将模型投入生产所需的训练数据（和注释）减少。这样的模型比需要大量训练数据的深度神经网络更容易解释。

上下文建模

将 Rehak 所描述的分布平坦的建模方式与其他集成建模技术区分开来是很重要的。最常见的集成建模示例涉及 bagging 或boosting（后者可能需要 Xtreme Gradient Boosting）。随机森林是一个基于不同决策树组合的提升示例。使用这种方法，“你可以根据集合中的先前版本一个一个地构建集合，”Rehak 评论道。尽管它是一种快速构建具高预测准确性的模型方法，但它存在过度拟合的风险（由于训练数据集太小，导致模型变得不太适用于生产数据）。

Rehak 的集成方法更适合 AML 用例，因为它基于影响这些事件的上下文。“如果您询问洗钱专家交易是否恶意，他们首先是查看账户的历史以及该人过去的行为方式，”雷哈克说。通过他的方法，与地理位置、时间、相关方和金融机构等相关因素，使用单独的机器学习模型进行检查。只有将这些模型的每个结果组合在一起，人工智能系统才能确定是否存在犯罪交易，通过这种做法的误报会明显减少。“通过机器学习可以解释大多数异常值，否则海量的异常值会淹没反洗钱团队，”雷哈克说。

决策边界

在用例进行集成建模时，使用超过 60 个模型针对分析交易的不同方面进行建模是常见的事情。集成方法的实时结果非常适合这种应用场景。“这 60 种算法中的一种可以将所有内容分割成段，然后对每秒平均事务大小进行建模，”Rehak 透露。“我们可以有数千个片段，这些片段都是同时动态更新的。”

由于将大量模型整合到集合中，每个模型都会评估交易的不同方面从而发现潜在的犯罪行为，除此之外再不能创建更全面的方法了。Rehak 透露：“我们从多个角度看待你，以至于塑造你行为的同时让你避免所有这些犯罪行为变得非常困难。”“因为，为了不被识别出来，“犯罪分子”需要避免的不止一个决策边界，而是大量动态的决策边界。这些算法中的每个模型都是独立学习的，然后我们将它们组合在一起。”

可解释的人工智能

这些集合如何增强可解释性以及所对应的许多方面。首先，他们没有过度依赖先进的机器学习，只包含简单、更可解释的算法（涉及传统机器学习）。这些模型成为评估交易犯罪的基石。“当我们说某件事很重要时，我们可以告诉你原因，”雷哈克说。“我们可以告诉你哪些指标表明了这一点。我们可以针对为每个发现写一份报告，指出由于这些因素会造成交易犯罪的高风险。” 尽管每种算法都专注于特征，但并非所有算法在模型中都具有相同的权重。一般而言，涉及图形分析（擅长检查关系）的算法比其他模型具有更大的权重。

模型不仅可以解释可疑的行为，也可以告诉你异常值出现的原因。“通常我们在集成中有四到五个占主导地位的算法，也就是说当我相信这是一个异常值时由于有算法的支撑，其他人也会表示同意，”Rehak 指出。“而且，我们有四五个触发因素，这就保证了在某种程度上使结果更偏向于异常。” 由于单个模型仅评估交易中的一个因素，因此它们提供了分数的可解释性和单词的可解释性。“因为我们知道集合，知道微分段，还知道交易量，我们可以很容易地在分数旁边通过问题显示这些信息，而交易量对一家公司的财务部门非常重要，”雷哈克补充道。

集成模式

最终，集成建模的使用效果超过了任何一种应用程序，尽管它对 AML 活动有巨大的帮助。如果应用得当，该技术可以提高可解释性，同时减少解决业务关键问题所需的训练数据和注释数量。

集成建模利用各种数据科学技术来解决多种业务问题，而不是将问题限制在一个或两个。因此，这种集成解决问题的方法可能会成为AI 部署的典型代表。

译者介绍

崔皓，51CTO社区编辑，资深架构师，拥有18年的软件开发和架构经验，10年分布式架构经验。曾任惠普技术专家。乐于分享，撰写了很多热门技术文章，阅读量超过60万。《分布式架构原理与实践》作者。

原文标题：Machine Learning Model Management: Ensemble Modeling