2017年《经济学人》宣布,数据(而非石油)已经成为世界上最有价值的资源,后来这个观点被广为流传。如今,各行各业的企业组织已经在、还将继续数据和分析方面投入大量资金。但是和石油一样,数据和分析也有它阴暗的一面。
根据2022年CIO状况调查报告,有35%的受访IT领导者提到,数据和业务分析将是今年推动他们组织最大的一项IT投资,有20%的受访IT领导者则提及了机器学习/人工智能。从机器学习算法驱动的分析和行动中获得的洞察力可以为企业组织带来竞争优势,但在声誉、收入甚至生命方面如果发生错误的话,可能要付出高昂的代价。
理解你的数据以及数据给你传递了什么信息,这一点很重要,但了解你的工具、了解你的数据、牢记企业组织的价格也同样重要。
下面是过去十年发生的一些备受关注的数据分析和人工智能灾难事件,可以说明在采用这些技术时可能遇到的问题。
1. AI算法发现了一切,却没能预测COVID-19
自COVID-19新冠疫情大爆发以来,很多企业组织都在寻求通过使用机器学习算法来帮助医院更快地诊断或者分类患者。但根据英国国家数据科学和人工智能中心图灵研究所的说法,这些预测工具几乎没有带来什么影响。
《麻省理工科技评论》记录了很多失败事件,其中大部分源于工具训练或测试方法出现了错误,其中,使用了标记错误的数据或者数据来自未知来源是常见的罪魁祸首。
剑桥大学机器学习研究员Derek Driggs和他的同事在《Nature Machine Intelligence》上发表了一篇论文,探讨了使用深度学习模型对病毒进行诊断。该论文最后明确,深度学习技术不适合临床使用。例如Driggs的团队发现,他们自己的模型存在缺陷,因为模型训练采用的数据集中,包括了扫描操作时躺着的患者和站立的患者的扫描文件。躺着的患者患重病的可能性更大,于是该算法学会了根据扫描中患者的位置来发现新冠风险。
类似的例子还包括使用含有健康儿童胸部扫描的数据集对算法进行训练,该算法最后却学会了识别哪个是儿童,而不是高危患者。
2. 购房算法失准导致Zillow损失数百万美元、大幅裁员
2021年11月,在线房地产交易巨头Zillow向股东表示,将在未来几个季度结束Zillow Offers业务,并裁员25%,也就是约2000名员工,而这主要归咎于Zillow因为用于预测房价的机器学习算法出现错误而导致了一系列后果。
Zillow Offers是一个程序,Zillow通过该程序根据机器学习算法得出的房屋价值“Zestimate”指数对房产进行现金报价,这么做是为了对房产快速进行翻新转售。但是Zillow公司的一位发言人告诉CNN,该算法的中位错误率为1.9%,对于市场交易之外的房屋评估错误率可能更高,高达6.9%。
CNN报道称,Zillow自2018年4月上线以来通过Zillow Offers买入了27000套房屋,但到2021年9月底仅售出17000套。新冠疫情大爆发和家庭装修劳动力短缺等黑天鹅事件,导致了算法的准确性问题。
Zillow称,该算法导致公司无意中以高于当前估价的价格买入房屋,导致2021年第三季度的库存价格减记为3.04亿美元。
Zillow公司联合创始人、首席执行官Rich Barton在公告发布后与投资者举行的电话会议上表示,或许他们可以调整算法,但最终风险太大。
3. Excel表格数据限制导致英国数千新冠病例未被上报
2020年10月,负责统计新增新冠病毒感染数量的英国政府机构英国公共卫生部(PHE)透露,在9月25日至10月2日期间,有近16000例新冠病毒病例并未上报。罪魁祸首是谁?答案是微软Excel中的数据限制问题。
英国公共卫生部使用自动化流程将新冠病毒阳性的实验室结果作为CSV文件传输到Excel模板中,用于报告仪表板和密接追踪。然而不幸的是,Excel电子表格每个工作表最多支持1048576行和16384列。而且,英国公共卫生部是按照列而不是按行输出信息的,所以当到了16384列限制的时候,Excel就会自动切断剩下的15841条记录。
虽然这个“故障”并没有妨碍接受检测的个人收到检测结果,但确实妨碍了密切接触者的追踪工作,使英国国家卫生服务部(NHS)更难发现和通知与感染患者密切接触的个人。英国公共卫生部临时首席执行官Michael Brodie在10月4日的一份声明中表示,英国国家卫生服务部测试和追踪系统以及英国公共卫生部迅速解决了这个问题,并将所有重大记录立即转移到该系统中。
英国公共卫生部采取了一项“快速解决”措施,先是把大文件进行拆分,然后对所有系统进行了全面端到端的审查,以防止未来再发生类似事件。
4. 美国国内医疗算法未能标记黑人患者
2019年发表在《科学》杂志上的一项研究显示,美国各地的医院和保险公司都使用一种医疗预测算法,来识别那些需要“高风险护理管理”计划的患者,但这种算法不太可能单独挑出黑人患者。
这项高风险护理管理计划旨在为慢性病患者提供训练有素的护理人员以及初级保健监测服务,以防止严重并发症的发生。但该算法将白人患者推荐给该计划的几率,要高于黑人患者。
研究发现,该算法使用医疗支出作为确定个人医疗需求的依据。但根据《科学美国人》的说法,那些病情较重的黑人患者所花费的医疗费用,与健康的白人所花费的医疗费用是差不多的,这意味着即使黑人患者的医疗需求更高,但他们的风险评分却很低。
研究人员认为,可能有几个因素,首先,有色人种收入较低的几率更高,即使他们有保险,也不太可能获得相应的医疗服务。隐性偏见也可能导致有色人种接受的护理服务质量较低。
虽然该研究并没有公开具体的算法或者开发人员,但有研究人员告诉《科学美国人》,他们正在与开发人员合作解决这个问题。
5. 数据集训练出的微软聊天机器人发布种族主义推文
2016年3月,微软发现,使用推特交互功能作为机器学习算法的训练数据,可能会产生令人失望的结果。
微软在推特平台上发布了AI聊天机器人“Tay”,并将其描述为一项有关“对话理解”的实验。微软给这个聊天机器人设计了一个少女的角色,结合使用机器学习和自然语言处理,通过推特与用户进行互动。微软用匿名的公共数据和喜剧演员预先编写的一些材料输入到机器人中,然后让它从社交网络上的互动信息中进行自我学习和自我发展。
这个聊天机器人在16个小时内发布了95000多条推文,迅速变成了公然的种族主义、厌女主义和反犹太主义。微软迅速叫停了并进行调整,但最终还是终止了该服务。
事件发生后,微软研究与孵化部门企业副总裁Peter Lee(后来担任了微软医疗企业副总裁)在微软官方博客上的一篇文章中写道:“我们对来自Tay的无意冒犯和伤害性推文深表歉意,这些推文并不代表我们的立场,也不能代表我们设计Tay的方式。”
Lee指出,Tay的前身是微软2014年在中国发布的小冰,在Tay发布前的两年时间里,它已经成功地与超过4000万人进行了对话。微软没有考虑到的是,一群推特用户会立即开始向Tay发起种族主义和厌恶女性的评论,而机器人Tay也迅速地从这些信息中学习,并最终整合到自己的推文中。
“尽管我们已经为很多系统滥用情况做好了准备,但我们却对这种特定的攻击行为严重失察。结果就是,Tay在推特上发布了非常不恰当、应受谴责的文字和图片。”
6. 亚马逊AI招聘工具只推荐男性
和很多大企业一样,亚马逊也渴望拥有一些能够帮助人力资源部门筛选出并找到最佳候选人的工具。2014年,亚马逊开始开发AI招聘软件来实现这一点。但有一个问题:这个非常偏爱男性候选人。2018年,路透社爆料亚马逊取消了该项目。
亚马逊的系统给候选人从1到5的星级评分,但系统核心的机器学习模型是根据提交给亚马逊近10年的简历进行训练的——其中大部分都是男性。因为使用这些数据进行训练,导致系统开始对简历中包含“女性”一词的短语给出较低评级,甚至是来自女子大学的候选人。
当时亚马逊公司表示,亚马逊招聘人员从未使用该工具来评估候选人。
亚马逊试图调整该工具以保持中立,但最终决定,无法保证该工具不会学习其他一些歧视性的候选人排序方式,而结束了该项目。
7. 零售巨头Target分析项目侵犯隐私
2012年,零售巨头Target的一个分析项目,展示了Target是如何从数据中洞察顾客的。据《纽约时报》报道,2002年,Target营销部门开始思考如何确定顾客是否怀孕,最终诞生了一个预测分析项目,导致Target无意中向一名少女的家人透露她已经怀孕了。反过来,各种文章和营销博客都开始引用该事件,建议人们避免那些“令人毛骨悚然的因素”。
Target营销部门想要识别出怀孕的顾客,因为在怀孕这种特殊时期人们很有可能改变他们的购物习惯。这样如果Target可以这期间触及到这些顾客,培养这些顾客新的购物行为,让他们转向去Target购买百货、衣服或其他商品。
和其他所有大型零售商一样,Target一直通过购物者代码、信用卡、调查等方式收集顾客数据,然后结合购物者的人口统计数据和第三方数据,对所有这些数据进行处理之后,Target的分析团队就能确定,通过分析Target大约25款在售商品就能生成“怀孕预测”评分。然后,营销部门就可以针对评分较高的顾客提供优惠券和营销信息。
进一步的研究表明,对顾客生育情况的研究会让其中一些顾客感到毛骨悚然。据《泰晤士报》报道,Target没有放弃有针对性的营销手段,但确实开始在广告中混入那些他们明知孕妇不会购买的东西,例如在纸尿裤广告展示割草机广告,通过这种广告组合的方式让顾客觉得没那么刻意。