英国《经济学人》杂志在2017年宣布数据已经取代石油,成为了世界上最有价值的资源。各行业组织开始在数据和分析方面加大投资。但与石油一样,数据和分析也有其阴暗面。
根据IDG公司发布的《2021年CIO状况报告》,39%的IT领导者表示,2021年的数据分析将推动其企业的大部分IT投资,高于2020年的37%。从机器学习算法驱动的分析和行动中获得的见解可以为企业提供竞争优势,但如果出错可能会在声誉、收入甚至人身安全方面带来巨大的损失。
了解数据及其表达的信息很重要,企业了解采用的工具、数据并牢记企业的价值观也很重要。
以下是过去10年来一些令人关注的分析和人工智能错误,以说明可能出现的问题。
1.Zillow公司由于算法问题损失惨重,并裁减25%的员工
2021年11月,在线房地产服务商Zillow公司告诉该公司股东,将在未来的几个季度缩减其Zillow Offers业务规模,并裁减25%的员工(约2000名)。Zillow公司面临的困境是其用于预测房价的机器学习算法中的错误率造成的。
Zillow Offers是一个应用程序,该公司根据其机其器学习算法“Zestimate”得出的房屋价值对房产进行报价评估。该公司当时的想法是翻修这些房产并快速出售进行周转。但是Zillow公司的一位发言人表示,其算法的平均错误率为1.9%,而对于非市场住宅,错误率可能更高,高达6.9%。
据美国有线电视新闻网报道,自从2018年4月推出以来,Zillow公司采用Zillow Offers购买了27000套房屋,但一直到2021年9月底仅售出17000套。新冠疫情和房屋装修劳动力短缺等黑天鹅事件导致了该算法在准确性方面出现了问题。
Zillow表示,该算法导致该公司以更高的价格购买房屋,导致该公司的资产到2021年第三季度减少了3亿400万美元。
在与投资者召开的电话会议上,Zillow公司联合创始人兼首席执行官RichBarton表示可能会调整算法,但面临的风险太大。
2.英国公共卫生部(PHE)因超出电子表格数据限制而丢失了数千例新冠病毒病例
2020年10月,负责统计COVID-19感染病例的英国公共卫生部(PHE)透露,在今年9月25日至10月2日期间,有将近16000例冠状病毒病例没有报告。其罪魁祸首是什么?其原因是Microsoft公司的办公软件Excel表格的数据限制。
英国公共卫生部(PHE)使用自动化流程将COVID-19阳性实验室结果作为CSV文件传输到报告仪表板和联系人跟踪使用的Excel模板中。不幸的是,Excel电子表格每个工作表最多只能有1048576行和16384列。此外,其表格是按列而不是按行来列出案例。当案例超过16384列的限制时,Excel会删除底部的15841条记录。
虽然这一故障并没有影响接受病毒检测的民众收到他们的检测结果,但它确实阻碍了接触者追踪工作,使英国国家卫生服务系统(NHS)更难识别和通知与受感染患者有密切接触的个人。英国公共卫生部(PHE)临时首席执行官Michael Brodie在10月4日的一份声明中表示已经迅速解决了这个问题,并将所有记录立即转移到NHS Test and Trace接触者追踪系统中。
英国公共卫生部(PHE)实施了一项“快速缓解措施”,可以拆分大型Excel文件,并对所有系统进行了全面的端到端审查,以防止将来发生类似事件。
3.美国的医疗保健算法无法标记黑人患者
2019年发表在《科学》杂志上的一项研究表明,美国各地的医院和保险公司使用一种医疗保健预测算法来识别需要“高风险护理管理”计划的患者,但该算法无法挑出黑人患者。
这个高风险护理管理计划为慢性病患者提供训练有素的护理人员和初级保健监测,以防止出现严重并发症。但该算法更倾向于推荐白人患者参与这些项目。
这项研究的研究人员认为,可能有几个因素造成了影响。首先,有色人种的收入可能较低,即使有保险,他们也不太可能获得医疗服务。而隐性偏见也可能导致有色人种接受低质量的护理服务。
虽然这项研究没有提到算法或开发商的名字,但研究人员表示,正在与开发人员合作解决这个问题。
4.数据集训练微软聊天机器人发布种族主义推文
2016年3月,微软公司了解到,使用Twitter交互作为机器学习算法的训练数据可能会产生令人沮丧的结果。
微软公司在社交媒体平台上推出了人工智能聊天机器人Tay。该公司将其描述为“对话式理解”的一个实验。其想法是让聊天机器人扮演一个十几岁女孩的角色,并使用机器学习和自然语言处理相结合的方式通过Twitter与用户互动。微软公司采用匿名的公共数据预先编写的材料植入聊天机器人的应用程序中,然后让它从社交网络上的互动中学习和发展。
在16小时内,这个聊天机器人发布了95000多条推文,这些推文迅速充斥了具有明显的种族主义、厌女主义和反犹太主义的内容。微软公司很快停止了这项服务进行调整,并最终取消了这项服务。
微软公司研究与孵化公司副总裁Peter Lee在此次事件发生之后在微软官方博客上的一篇文章中写道,“我们对来自Tay的无意冒犯和伤害的推文深表歉意,这些推文并不代表我们的观点,也不代表我们设计Tay的本意。”
Lee指出,微软公司于2014年推出了Tay的前身小冰,在Tay发布前的两年内,小冰已经成功与4000多万人进行了对话。但微软公司没有考虑到的是,很多Twitter用户会立即向Tay发布种族主义和厌恶女性的评论。该机器人很快从这些推文中学习并将其纳入自己的推文中。
他写道,“虽然我们已经为人工智能系统的多种类型的滥用做好了准备,但我们疏忽这一特定的攻击。因此,Tay在推特上发布了极不恰当并且应受谴责的文字和图片。”
5.亚马逊人工智能招聘工具只推荐男性
像许多大公司一样,亚马逊公司渴望能够帮助其人力资源部门筛选最佳应聘者的工具。2014年,亚马逊公司希望开发基于人工智能的招聘软件来做到这一点。但出现了一个问题:该系统倾向选择男性应聘者。亚马逊公司于2018年取消了该项目。
亚马逊公司的这个人工智能招聘系统给应聘者的星级评分从1到5。但人工智能系统核心的机器学习模型是根据提交给亚马逊公司的10年简历进行训练的——其中大部分简历来自男性。由于这些训练数据,招聘系统开始对简历中包含“女性”一词的短语进行降分处理。
亚马逊公司当时表示,该公司招聘人员从未使用该工具来评估应聘者。该公司试图对该工具进行调整,试图使其保持中立,但最终决定无法保证它不会学习其他歧视性的应聘者分类方法,最终取消了这个项目。
6.Target公司的分析项目侵犯隐私
2012年,零售巨头Target公司的一个分析项目展示了可以从他们的数据中了解多少客户。根据《纽约时报》的报道,2002年,Target公司的营销部门想知道如何确定客户是否怀孕。一个预测分析项目开展了一系列调查,该项目将导致零售商无意中向一个十几岁女孩的家人透露她已经怀孕。而此次事件导致大量文章和营销博客引用,并作为侵犯隐私的一个典型案例。
Target公司的营销部门希望确定怀孕的人群,是因为人们在生命中的某些时期(怀孕是最重要的时期之一)最有可能从根本上改变他们的购买习惯。例如,如果Target公司能够在这段时间内接触到这些客户,它可以让这些客户有更多新的行为,并让他们转向Target购买食品、服装或其他商品。
与所有其他大型零售商一样,Target公司一直在通过购物者代码、信用卡、调查等方式收集客户数据。它将这些数据与它购买的人口统计数据和第三方数据混合在一起。通过分析所有这些数据,Target公司的分析团队可以确定其销售的大约25种产品可以一起进行分析,从而得出“怀孕预测”分数。然后,营销部门可以用优惠券和营销信息筛选出得分较高的客户。
其他研究表明,研究客户的生育状态可能会让一些客户感到毛骨悚然。根据《泰晤士报》报道,该公司并没有放弃其有针对性的营销活动,而是在他们知道孕妇不会购买的东西的广告中混入一些广告,其中包括剪草机广告和尿布广告,以使客户认为其广告组合是随机的。