从数据和机器学习算法中获得的见解可能是无价的,但错误可能会导致损失声誉、收入甚至付出生命的代价。
2017年,《经济学人》(The Economist)宣布,数据已取代石油,成为“世界上最有价值的资源”。自此之后,各行各业的组织便开始加紧步伐在数据和分析方面进行大量投资。但就像石油一样,数据和分析也有其阴暗面。
据《2023年CIO状况报告》指出,34%的IT领导者表示,数据和业务分析将在今年推动其组织的大部分IT投资。26%的IT领导者表示,机器学习/人工智能将推动大部分IT投资。从机器学习算法驱动的分析和行动中获得的洞察力可以为组织提供竞争优势,但错误可能会在声誉、收入甚至生命方面造成高昂的代价。
以下是过去十年中一些引人注目的分析和人工智能错误,以说明可能出现的问题。
ChatGPT“虚假”法庭案件
大型语言模型(LLM)在2023年取得的进展,引起了几乎所有行业对生成式人工智能变革潜力的广泛兴趣。OpenAI的ChatGPT一直处于这种兴趣激增的中心,预示着生成式人工智能如何拥有颠覆几乎每个业务领域工作性质的力量。
但这项技术在真正接管大多数业务流程之前还有很长的路要走,这一点律师Steven a. Schwartz和美国地区法官P. Kevin Castel可谓深有体会。2023年,Schwartz在一起针对哥伦比亚航空公司阿维安卡(Avianca)的诉讼中使用了ChatGPT研究先例,但却一度导致案件陷入困境。
Schwartz是Levidow、Levidow & Oberman律师事务所的律师,他使用OpenAI生成式人工智能聊天机器人查找之前的案例,以支持Avianca员工Roberto Mata在2019年因受伤提起的诉讼。唯一的问题是什么?摘要中提交的案件至少有六个是不存在的。在今年5月提交的一份文件中,Castel法官指出,Schwartz提交的案件包括虚假姓名和案件编号,以及虚假的内部引用。
在一份宣誓书中,Schwartz告诉法庭,这是他第一次使用ChatGPT作为法律研究来源,他不知道其内容可能是虚假的。他承认,他还没有证实人工智能聊天机器人提供的消息来源。他还表示,他“非常后悔利用生成式人工智能来补充在此进行的法律研究,特别是在没有绝对验证其真实性的情况下,将来绝不会再这样做。”
截至2023年6月的消息,Schwartz律师极有可能面临法院的制裁。
AI算法可识别除COVID-19之外的所有事物
自COVID-19大流行开始以来,许多组织都在寻求应用机器学习(ML)算法来帮助医院更快地诊断或分类患者。但根据英国国家数据科学和人工智能中心图灵研究所的数据显示,这些预测工具几乎没起什么作用。
《麻省理工科技评论》(MIT Technology Review)记录了大量的失败案例,其中大部分都源于工具训练或测试方式的错误。使用错误标记的数据或来自未知来源的数据是最常见的原因。
剑桥大学机器学习研究员Derek Driggs及其同事在《自然机器智能》(Nature Machine Intelligence)上发表了一篇论文,探讨了使用深度学习模型来诊断病毒。文中指出该技术不适合临床使用。例如,Driggs的小组发现他们自己的模型存在缺陷,因为它是在一个数据集上训练的,其中包括扫描时躺着的患者和站立的患者的扫描结果。躺着的病人患重病的可能性要大得多,因此该算法学会了根据扫描中人的位置来识别COVID风险。
一个类似的例子包括使用包含健康儿童胸部扫描的数据集训练的算法。该算法学会了识别儿童,而非高危患者。
Zillow由于算法失误导致裁员
2021年11月,在线房地产市场Zillow告诉股东,它将在未来几个季度结束其AI炒房业务“Zillow Offers”并裁员25%(约2000名员工)。旧屋翻新(home-flipping)部门的困境是其用于预测房价的机器学习算法中的错误率所致。
Zillow Offers是一个程序,通过该程序,该公司能够根据机器学习算法“Zestimate”得出的房屋价值对房产进行现金报价。其初衷是翻新这些房产并迅速出售。但Zillow的一位发言人称,该算法的中位错误率为1.9%,对于场外房屋的错误率可能更高,高达6.9%。
据CNN报道,自2018年4月推出以来,Zillow已经通过Zillow Offers购买了27000套房屋,但到2021年9月底仅售出17000套。COVID-19大流行和家庭装修劳动力短缺等“黑天鹅事件”导致了算法的准确性问题。
Zillow表示,该算法导致其以虚高的价格购买房屋,致使2021年第三季度的库存减记3.04亿美元。
Zillow联合创始人兼首席执行官Rich Barton在公告发布后与投资者举行的电话会议上表示,或许可以调整算法,但最终风险太大。
英国因超电子表格数据限制而丢失数千COVID病例
2020年10月,负责统计新的COVID-19感染病毒的英国政府机构英国公共卫生(PHE)透露,在9月25日至10月2日期间,有近16,000例冠状病毒病例未报告。罪魁祸是Microsoft Excel 中的数据限制。
PHE使用自动化流程将COVID-19阳性实验室结果作为CSV文件传输到Excel模板中,用于报告仪表板和联系人追踪。不幸的是,Excel电子表格每个工作表最多可以有1048576行和16384列。此外,PHE按列而不是按行列出案例。当案例超过16,384列的限制时,Excel会删除底部的15841条记录。
这个“小故障”并没有阻止接受检测的个人收到他们的结果,但它确实阻碍了接触者追踪工作,使英国国家卫生服务(NHS)更难识别和通知与感染患者密切接触的个人。PHE临时首席执行官Michael Brodie在10月4日的一份声明中表示,NHS Test and Trace和PHE已经迅速解决了这个问题,并将所有未决案件立即转移到NHS Test and Trace接触者追踪系统中。
PHE实施了“快速缓解”措施,拆分了大文件,并对所有系统进行了全面的端到端审查,以防止未来发生类似事件。
医疗保健算法未能标记黑人患者
2019年,发表在《科学》杂志上的一项研究显示,美国各地的医院和保险公司用来识别需要“高风险护理管理”计划的患者的医疗预测算法,并不太可能单独挑出黑人患者。
高风险护理管理计划为慢性病患者提供训练有素的护理人员和初级保健监测,以防止严重并发症。但该算法更有可能为这些项目推荐白人患者,而不是黑人患者。
研究发现,该算法使用医疗保健支出作为确定个人医疗保健需求的代理。但据《科学美国人》报道,病情较重的黑人患者的医疗保健费用与健康白人的医疗费用相当,这意味着即使他们的需求更大,他们的风险评分也更低。
该研究的研究人员认为,可能有几个因素起了作用。首先,有色人种收入较低的可能性更大,即使有保险,也可能使他们不太可能获得医疗服务。隐性偏见也可能导致有色人种接受低质量的护理。
虽然该研究没有透露算法或开发人员的名字,但研究人员告诉《科学美国人》,他们正在与开发人员合作解决这种情况。
数据集训练微软聊天机器人发布种族主义推文
2016年3月,微软了解到,使用Twitter交互作为机器学习算法的训练数据可能会产生令人沮丧的结果。
微软在社交媒体平台上发布了人工智能聊天机器人Tay。该公司将其描述为“对话理解”的实验。这个想法是,聊天机器人将扮演一个十几岁的女孩,并结合使用机器学习和自然语言处理,通过Twitter与个人互动。微软给它植入了匿名的公共数据和一些喜剧演员预先编写的材料,然后让它从社交网络上的互动中学习和发展。
结果在16小时内,该聊天机器人发布了95000多条推文,这些推文迅速变成了公然的种族主义、厌女主义和反犹太主义。最终,微软选择关闭了这项服务。
事件发生后,微软研究与孵化公司副总裁 Peter Lee表示,
“我们对来自Tay的无意冒犯和伤害性推文深表歉意,这些推文并不代表我们的意见和立场,也不代表我们设计Tay的初衷。”
Lee指出,Tay的前身是微软于2014年发布的“小冰”,在Tay发布前的两年内,它已经成功与超过4000万人进行了对话。微软没有考虑到的是,一群Twitter用户会立即开始向Tay发布种族主义和厌恶女性的评论。该机器人迅速从该材料中学习并将其整合到自己的推文中。
亚马逊人工智能招聘工具只推荐男性
与许多大公司一样,亚马逊也渴望获得能够帮助其人力资源部门筛选最佳候选人的工具。2014年,亚马逊开始开发人工智能驱动的招聘软件来做到这一点。但问题是,该系统非常偏爱男性候选人。2018年,经过路透社爆料后,亚马逊取消了该项目。
据悉,亚马逊的系统会给候选人从1到5的星级评分。但系统核心的机器学习模型是根据10年来提交给亚马逊的简历进行训练的——其中大部分来自男性。由于这些训练数据,该系统开始对简历中包含“女性”一词的措辞进行处罚,甚至降级来自全女子大学的候选人。
当时,亚马逊表示,亚马逊的招聘人员从未使用该工具来评估候选人。
该公司试图对该工具继续调整,以使其保持中立,但最终因无法保证它不会学习其他一些歧视性的候选人筛选方法,因此便终止了该项目。
Target分析侵犯隐私
2012年,零售巨头Target的一个分析项目展示了公司可以从他们的数据中了解多少客户。据《纽约时报》报道,2012年,Target的营销部门开始研究如何确定客户是否怀孕。这一调查催生了一个预测分析项目,而该项目导致零售商无意中向一名少女的家人透露了她怀孕的消息。
Target的营销部门想要识别怀孕的个体,因为在生命中的某些时期——尤其是怀孕时期——人们最有可能从根本上改变他们的购买习惯。如果Target可以在这段时间接触到客户,它就能培养这些客户的新行为,让他们转向Target购买杂货、衣服或其他商品。
与所有其他大型零售商一样,Target一直在通过购物者代码、信用卡、调查等方式收集客户数据。它将这些数据与其购买的人口统计数据和第三方数据混合在一起。通过对所有这些数据进行处理,Target的分析团队能够确定客户的“怀孕预测”分数。然后,营销部门可以针对高分客户提供优惠券和营销信息。
进一步的研究表明,研究客户的生殖状况可能会让其中一些客户感到毛骨悚然。据《泰晤士报》报道,该公司并没有放弃其定向营销策略,而是开始在他们知道孕妇不会购买的东西中混入广告——割草机广告旁边的尿布广告——让客户觉得该广告组合是随机的。
原文链接:https://www.cio.com/article/190888/5-famous-analytics-and-ai-disasters.html