机器学习需要注意的13个陷阱！-51CTO.COM

【51CTO.com快译】想在如今快速发展的商业经济形势下取得成功，就需要企业迅速、大规模地利用数据。由于数据的数量、速度和种类不断增加，使用机器学习和人工智能来筛查所有流入的信息，解读数据并且准确地预测企业的未来方向变得必不可少。

然而，搞好机器学习并非易事。它需要合适的专长、合适的工具以及合适的数据，才能兑现机器学习的承诺。即便所有这些因素都考虑到位了，还是很容易出差错。

数学家兼决策网站ClearerThinking.org的创始人斯宾塞·格林伯格(Spencer Greenberg)认为：“机器学习为我们提供了一系列非常有效的用于预测的方法，但是如果你不明白自己的机器学习算法在做什么，它也会带来灾难性后果。一旦算法经受训练，就要研究算法，弄清楚算法在如何预测，它所做的从企业的角度来看是否有意义，这很重要。”

机器学习有时被视为是解决所有企业挑战的万灵药。如果没有考虑到实际的潜力和严重的局限性，谁都很容易误解和误用机器学习。

全球产品开发和技术咨询公司Cambridge Consultants的机器学习主管蒙蒂·巴洛(Monty Barlow)在接受采访时说表示：“由于一连串的媒体报道，各大公司在机器学习方面取得重大进展――棋类游戏击败人类对手，医疗筛查方面取得突破等等。这让人觉得这个领域在不断迅速取得进展，淡化了遇到的挫折和困境。实际上，可能很晚才收到机器学习方面的投资回报，或者根本收不到。”

许多企业组织在以战术性和战略性方式使用机器学习，比如进行产品推荐或为战略决策提供依据。虽然进行离谱的产品推荐带来的风险比较低，但是推荐一旦离谱会让客户流失。

由于运用不当的机器学习而做出缺乏事实依据的战略决策会给企业酿成严重后果。

普华永道(PwC)竭力从美元和股东价值方面来量化数据驱动的重大战略决策在经济方面的影响。它还试图了解不同的行业领域依赖机器智能的程度。该公司全球和美国数据及分析负责人丹·迪菲利波(Dan DiFilippo)在接受采访时说：“2014年，我们让大家量化他们所做的决策，在经济方面的影响多达数亿美元。这次，我们要求他们从股东价值方面来衡量，大多数人选择对股东价值的影响在5%至50%。即便说少一点，一家大企业5%的股东价值也会是个大数目。”

总之，不管你在运用机器学习这条道路上处于哪个阶段，都有必要知道误用机器学习和人工智能可能会导致企业误入歧途的陷阱。

1、不准确的预测。

机器学习常常用于做预测。例子包括改善搜索结果，预料电影和产品选择，预料客户购买行为，或者预测新的攻击手法类型。

预测不准确的一个原因与“过拟合”有关：如果机器学习算法本身太过适应数据中的干扰，而不是发现底层的信号，就会出现这种情况。

ClearerThinking.org的斯宾塞·格林伯格认为：“如果你试图让一种极其复杂的模型拟合一小批数据，你总是可以迫使算法拟合，但它不会很好地推广到将来的数据。实际上，你的复杂模型会拼命试图准确地击中每个数据点，包括应该忽视的随机性波动，而不是为数据的核心部分建模。必须根据你拥有的数据量以及数据的干扰性有多大来选择你在拟合的模型具有的复杂性。”

2、你对不知道的东西一无所知。

市面上缺少机器学习方面的人才。与此同时，机器学习在普及化，相应功能逐渐进入到更多的应用程序和易于使用的平台，这些平台可以掩盖机器学习的底层复杂性。“黑盒子”机器学习的缺点在于无法深入了解决策过程。

斯宾塞·格林伯格指出：“并不总是有必要了解模型是如何进行预测的，但就高风险预测而言，明白算法在做什么变得越来越重要。如果企业依赖来自机器学习算法的预测以便进行决策，那么问清楚那些预测是如何做出的很重要。”

明白预测是如何做出的可能需要数据科学家或能研究算法，向管理层解释算法行为的工程师的帮助。那样一来，企业领导人才能确信预测正如他们预期的那样准确，结果就是企业领导人所想的那种结果，预测并不依赖不需要的信息。

3、算法与现实不一致。

机器学习算法需要加以训练;而想要高效地加以训练，算法需要大量的数据。企业常常针对某个特定的数据集来训练机器学习算法，然后运用算法对未来数据进行预测，范围未必预料得到。

斯宾塞·格林伯格说：“如果数据的底层特点发生变化，针对某个数据集的准确模型可能面对另一个数据集时不再准确。如果你做预测的系统变化很慢，这也许没什么，但如果系统迅速变化，机器学习算法会做出非常糟糕的预测，因为它在过去学到的一套可能不再适用。”

4、固有的偏差。

机器学习算法会学会企业不想要的偏差。比如，一家想要预测谁可能会面临汽车事故这种风险的汽车保险公司可能根本不会提及性别，因为这种差别对待遭到法律的禁止。尽管性别不包括在数据集中，但机器算法可能会使用关联来推断性别，然后使用性别作为预测因子。

斯宾塞·格林伯格认为：“这个例子表明了两个重要原则：首先，从企业角度来看，做出最准确的预测并不总是所需要的，这意味着你可能需要对算法实施另外的限制，准确性不是唯一的限制;其次，算法的智能化程度越高，它就越难控制。消除性别变量未必足以防止算法做出基于性别的预测，消除你知道与性别有关联的所有变量也是如此，因为算法会发现一种方法来预测你自己甚至都不知道的性别。”

5、招的人不合适。

招聘网站Monster一直在运用机器学习来搞清楚表现最佳的销售代表是什么样子，但是结果还不尽如人意。

Monster的全球人才收购主管马特·杜塞特(Matt Doucette)认为：“我们最初过于关注定额绩效和经理评价作为衡量优秀员工的一个指标。在这些测试的第2个阶段，我们会深入分析数字，比如连续5个季度的定额平均数字、折扣评分、核心与战略产品百分比、新业务与保留，以及绩效总体表现等度量指标。数据集会变得很庞大，结果会更加小众化，因而可加以精准化或扩展。”

基于机器学习结果得出不准确的求职者画像会导致企业招聘的求职者不适合某个岗位。与此同时，宝贵的时间浪费在了筛选实际上不合适的求职者身上。杜塞特表示，如果这是创造收入的岗位，招的人不合适给收入带来的影响会相当大。

6、给收入带来的危害。

一些机器学习系统是在没有监管的情况下运行的，另一些则需要密切监管。无论怎样，不监管机器学习算法及它们对企业带来的影响是个错误。

预测分析和数据科学公司Lumidatum的创始人兼首席执行官帕特里克·赖斯(Patrick Rice)表示：“算法和机器学习技术的自动化方面取得了非常惊人的进展，以至于很容易抱有‘建好后不管’的心态。然而，这可能会给客户和企业带来非常严重的后果。”

“公司需要更加系统性地监管部署在生产环境的机器学习系统。不管在什么时候，每个人(不仅仅是工程师和数据科学家)都应该深入了解它在如何运行，它在如何响应新的客户查询，它在如何逐渐变化。当然万一发现任何重大的异常现象，还要能够关闭系统。”

微软的Tay推特聊天机器人就是训练出岔子的一个典例。在推特社区的推波助澜之下，Tay的种族主义行为变得臭名昭著。微软在推出16个小时后关闭了它，但是这个失败案例仍被媒体大肆宣传。

7、错误的假设。

在完全自动化的系统中运行的机器学习算法需要能够处理缺失的数据点。最常见的方法就是使用平均值，以此代替缺失值。据机器学习实验室主管兼芝加哥伊利诺伊理工学院计算机学副教授穆斯塔法·比尔吉奇(Mustafa Bilgic)声称，这种方法对数据做出强假设，包括数据“随机缺失”。

比如，比尔吉奇说：“病人缺失胆固醇含量这个事实实际上是非常有用的信息。这可能表明，检验是有意不进行的，这实际上意味着它可能对这项任务来说无关，或者假设是正常的。有些方法并不假设特征是‘随机缺失’，不过完全自动化的方法不可能知道哪些特征是随机缺失、哪些不是。”

无论是不是用在完全自动化的系统，机器学习算法通常假设数据具有代表性、随机性，尽管公司的数据并不通常是随机的。如果数据是隐式偏差的，从数据得到的洞察力和预测也会有偏差。因此，公司应该关注数据收集过程中存在的隐式偏差和显式偏差。

8、不相关的推荐。

推荐引擎已变得司空见惯。然而，其中一些推荐引擎显然比另一些来得更准确。机器学习系统算法进一步证实了它们学到的东西。比如，如果零售顾客的偏好突然发生了变化，推荐可能变得完全不相关。

穆斯塔法·比尔吉奇认为：“这就是我们所说的‘利用vs探索’取舍。如果算法试图利用它学到的东西，但是没有给探索留下任何空间，它会不断进一步证实已经知道的东西，不会学习新的东西，最终变得毫无用处。”

9、欺骗性的简单性。

机器学习内置到各种各样的应用程序中，还有试图掩藏其复杂性的诸多平台和解决方案。由于需要怎样才能搞好机器学习或者机器学习会如何影响企业对企业用户来说并不总是很明显，所以很容易过于简单化。

Cambridge Consultants的蒙蒂·巴洛指出：“一些企业组织没有认识到机器学习开发牵涉广泛的学科领域，以及如何管理它们――比如，把机器学习当成一种纯粹涉及数学和算法的项目，或者只是另一种应用软件，或者以为招聘一名数据分析员来增强现有的软件团队就够了。团队应竭力就如何在开发期间评估机器学习的表现达成共识，然后不断衡量和跟踪其表现。你需要认真规划里程碑，并且留意表现突然之间得到‘好得难以置信’的提升。”

10、垃圾进垃圾出。

不是所有的数据都一样宝贵或准确。如果没有努力解读数据，机器学习的结果可能与预期要求会有很大的偏差。

网络解决方案厂商瞻博网络公司的数据科学家罗曼·西纳耶夫(Roman Sinayev)认为：“你可能在初始测试中有出色的结果，后来发现一旦发布到生产环境，你的产品遇到了灾难性结果。数据科学家应确保他们拿一系列广泛的意外变量来测试产品，比如狡猾的攻击者，确保他们考虑到数据的每一种可能的结果。”

11、拼命寻求颠覆。

包括亚马逊、Facebook、谷歌、网飞和eBay在内的公司完全颠覆了所在行业，它们的竞争武器之一就是机器学习。其他公司试图亦步亦趋，不过评估机器学习如何给本企业带来最大的好处来得很重要。

扎克·克劳斯(Zach Cross)是总部位于亚特兰大的技术咨询公司Revenue Analytics的总裁，他认为：“《财富》500强公司很聪明。它们认识到，运用机器学习类型的方法主要是为了确保可扩展性、可重复性和可预测性，而不是获得洞察力，将自己带到不同的方向。如果一家跨国企业将效率逐步提高2%或3%，企业就能增收数千万美元至数亿美元。”

12、不可预测的结果。

无论有没有采用机器学习，复杂系统的行为本来就难以预测。由于会发生预料之外的结果，即便本意再好，投入了大量资金，能做的最好办法就是尽量减小这些影响。

密歇根大学信息学院的W. K. Kellogg副教授肯塔罗·托亚马(Kentaro Toyama)表示：“要尽量减小负面影响，最好的办法之一就是从小处入手，逐步加大系统的范围、接触面和影响力。”托亚马表示，用户最好创建多个规模的沙盒(至少每个数量级创建一个沙盒)，让新系统或新变化可以在受到密切监视的情况下在较小规模下运行一段时间，然后将规模扩大一级。

13、盲目的信任。

说到机器学习，细节至关重要。如果用户盲目信任和实施来自机器学习的洞察力，并不了解洞察力背后的原因，可能会将其雇主、客户或者甚至整个公众暴露在风险面前。

机器智能应用软件厂商Nutonian的创始人兼首席技术官迈克尔·施密特(Michael Schmidt)说：“我们还没有准备好根据独立于任何人类理解能力的模型来做出所有的企业决策、医疗决策和重要的生活决策。由于用户解释不了模型，这可能会导致金融崩溃，人们因未知原因而被拒绝贷款，或者甚至病人在治疗疾病时被误诊。”

简言之，如果你无法解释为何你的机器学习模型做出了决策，就不该将它用于重要事情。

原文标题：13 Ways Machine Learning Can Steer You Wrong，作者：Lisa Morgan

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】