模型花费几十万刀，指导无数项目，才发现负样本用的是null？-51CTO.COM

模型花费几十万刀，指导无数项目，才发现负样本用的是null？

人们常会提到，当今流行的深度学习模型是黑箱状态——给它一个输入，模型就会决策出一个结果，其中的过程不为人所知。人们无法确切知道深度学习的决策依据以及结果是否可靠。近年来，越来越多的新研究面向构建可信的机器学习方法获得了成果。

然而最近发生的一件事情告诉我们，很多时候被广泛应用的机器学习模型出问题的原因，压根就不会深入到算法层面。一点数据上的纰漏就会造成让人啼笑皆非的结果，而且最重要的是，这样的事比所谓「模型不可解释」造成的损失还要多出不少。

上个星期，美国宾夕法尼亚州历史保护官员和交通部门之间发送了大量邮件，其中内容混合了悲伤、困惑和沮丧的情绪。这一丑闻造成的影响仍在继续，在官方做出回应之前，我们还不能了解更多情况（尽管此事在当地考古学家之间已经人尽皆知了）。

一个价值 36.5 万美元的机器学习模型打了水漂。

发生甚么事了？

五年前，一些人带着创意拜访了宾州交通部，提出为史前考古遗址创建一个全州范围预测模型。最终，政府部门选择与一家大型工程公司合作，后者一直在考古调查方面花钱。

从合同中我们可以看到，这家公司花费了纳税人 36.59 万美元，承诺提供一款最强大的模型，该模型还整合了 GIS（地理信息系统）叠加分析，其结果可供考古学家们使用。

从那以后直到今天，绝大多数宾夕法尼亚州交通部门的项目和所有需要进行文化资源调查的项目，在进行前都使用了这个机器学习模型的推断结果。

从数据准备、模型选择再到性能测试，这一项目原本看起来有模有样，然而错误一旦被人揭穿，情况就变得不忍直视了。

他们将待预测区域当做负样本

从 2013 年中到 2015 年，项目承包商花了一年半左右的时间向宾州交通部门交付了一个模型和 7 册文档。

不幸的是，到目前为止，似乎没有人阅读过该文档。模型似乎会输出一些毫无意义的数字，而背后原因非常神奇。

咨询公司将未调研的土地用作负样本数据集，但是，这些土地不就是模型将要预测的那部分吗？一个花费了 30 多万美元的模型，却真实地包含了这样的错误。

无论如何，在一个（混合了回归和随机森林的）模型中使用 null 数据都是不合适的，这些本不应该作为负样本数据而出现。即使这些 null 数据存在于自变量中，而不是因变量，它们依旧能够对模型的推理结果造成严重破坏。

他们检查项目时没有使用数据处理的最佳实践

可为什么开发团队的数据科学家们辛苦工作了一年半，也没有意识到他们在第一步中就犯了错？这与他们检查项目的方式有关。

一般来说，检查的金标准是留出一部分随机选择的部分。此时，只要你训练了模型，就可以知道该模型在给到真实数据时是否 work。

显然，在这件事中，相关研究人员未曾进行这样的验证。也许他们使用了一些神秘的统计方法？这就不得而知了。

他们将已知地点视为随机采样的结果

众所周知，即使在一个项目区域内，也并非所有土地的采样率都相同。仅使用铲测试坑（Shovel Test Pit），并假设你有 100 英亩的土地，其中 50 英亩是高概率，50 英亩是低概率，并以不同的间隔（常见的有 15 米、30 米）对其进行测试。这意味着你有 80% 的测试是在高概率土地上进行的，因为你可以在一英亩土地上以 15 米的间隔进行 16 次铲土测试，以 30 米的间隔进行约 4 次测试。因此你需要在高概率部分上找到 80% 的站点。

因此我们有一些已知的站点，这些站点并不是从随机采样的土地中发现的，而是从人们认为能够找到它们的位置发现的。

直觉上，大多数考古学家都知道这一点。这很重要，因为已知的正样本数据集的自变量分布已用于这些统计测试。这种分布是有偏置的，数据科学家不知道如何解释这些偏置。

因此，我们需要留出一部分数据。

项目管理，没有管理？

花费 36.5 万美元，并不意味着简单地让承包商派一个人过来，在办公室角落里捣鼓几年，而无需他人管理。

追溯到 2014 年初，这个项目在交付给宾州交通部门的第三卷文档中，已经犯了致命的错误（使用 null 数据作为负样本数据）。难道这个项目无人监督吗？为什么在向宾州交通部门收取数十万美元之前，这个融合了 GIS 和机器学习的模型不值得其他人（无论是同事还是上级）关注？

交通部门尽到职责了吗？

交付文档之后，宾州交通部门中谁阅读过这些文档？作者猜测可能没人阅读，也没人能理解这些文档。不过这纯粹是猜测了，我们更愿意相信文档被读过，只是读地不仔细。

针对该模型中最大的错误而言，任何上过大学统计学课程的人都应该能够解决这个问题。但是正如有人指出的那样，考古学家很少学习这些数学课程，因此可能不会有考古学家来指出这些错误。

教训

这一错误浪费了纳税人 36.5 万美元，显示了美国交通部门和售卖该模型的公司在质量控制方面的漫不经心，同时也表明，一些有问题的模型目前仍在某些重要的大型项目中使用。

老实说，如果想要一个预测模型，你拿出这个项目 3–5% 的经费就够了。把模型做得简单一点，这样你就能自己对它进行更新、测试。即使这个模型没有大量的质量控制问题，复杂的数学模型也不比简单的性能要好。

揭露此事的人，Medium 博主 Archaic Inquiries 表示，他目前还在等待 SHPO 和 DOT 的回复。他特别强调，他既不在这个州工作，近期也没有这个打算，写这篇批评文章也没拿到什么报酬。他的动机很简单：看到这个模型由于缺乏监管而用于政策指导，作为一名专业人员的他为自己的领域感到尴尬。

机器学习的推断结果出错造成的损失有大有小，在这里可能意味着不少古人类遗迹被忽略，但最可怕的地方在于，在机器学习技术被广泛应用的今天，这样的错误其实屡见不鲜。

在社交网络上，宾州算法事件被机器学习圈的人广泛讨论，有人表示：「我遇到的大多数数据科学家，都完全没有意识到这种错误推理的问题（数据泄露），而且因为对于机器学习的无条件信任，甚至相信算法，更甚于相信自己的领域知识。」

「我认识一个政府机构的数据科学家，有很多次，我不得不向他解释一些数据科学领域中的基本概念。我不会点明他在哪个机构，但当美国人的生命受到威胁时，它会是人们首先想要求助的那个部门。」在 Reddit 上，用户 Stereoisomer 说道。

不知此类在技术上没有什么解决难度的问题，以后会不会越来越少。