从安全漏洞到软件工程失败,这些备受瞩目的IT灾难在今年对现实世界造成了严重破坏。让它们作为警示故事。
对于几乎任何规模的公司来说,IT都是业务运营的代名词。因此,当技术出现故障时,公司可能会随之倒闭。
IT故障,无论是复杂的系统还是项目,都越来越多地登上商业新闻版块,其影响可能变得更加有害——而且令人尴尬。
我们收集了2021年的八场最大的技术危机,以突出各种近乎灾难性的IT问题,这些问题不仅会出现,而且会对您的业务产生巨大影响。除了幸灾乐祸之外,我们希望这些IT灾难故事对您有所启发,即使您的组织远不及这些故事中的某些主角那么大或风险不高。
1. 为什么应该设计更好的用户界面
许多公司倾向于对他们的IT工具采取“如果它没有坏,就不要修复它”的态度,如果你曾经参与过拙劣的升级或部署,你就会知道为什么。但这可能会导致一些真正过时的系统在生产使用中使用可追溯到软件行业早期的UI——这反过来可能意味着可用性问题与现实世界的后果。
花旗银行的一个后端系统就是这种趋势的一个很好的例子,也是造成5亿美元业务失误的主要原因之一。故事是这样的:花旗银行试图代表其客户之一露华浓向露华浓的几个债权人支付780万美元的利息。在Flexcube中这样做是一个特别笨重的过程将大部分付款发送到花旗银行内部账户,而只有利息部分支付给债权人。尽管三个不同的人签署了Revlon的这笔交易,但它在没有检查所有适当的框的情况下完成了,并且发出了9亿美元,其中大部分是直到2023年才归还债权人的款项。
您可能会发现这种错误并非闻所未闻——而且受益方通常会将错误发送的钱退还给犯错的公司,这会让您感到惊讶。但这一次情况有所不同:发出的一半以上的钱都流向了各种对冲基金,仍然对贷款条款先前重新谈判以对露华浓有利。他们说,他们认为这笔钱是提前偿还欠下的债务,今年法官裁定他们不必归还。
这里的重要教训是至少使您的UI现代化,以确保员工能够以流线型、连贯的方式履行他们的职责——如果人们对你不够生气而利用它,犯错的痛苦就会减少。
2. 法国银行客户看到彼此的账户
法国银行LCL的客户于2月23日登录了他们的银行应用程序,却发现他们正在查看别人的信息。这个消息很快在Twitter上传播开来,许多人猜测这可能是网络攻击的结果。但据银行本身称,这实际上是一天内纠正的软件错误的结果。
当然,这类开发失误是发生在公司内部失败的征兆,尤其不应该发生在银行业。后果说明了此类错误的典型表现,该公司有责任将事情最小化:LCL表示没有透露任何个人信息,客户只能看到其他客户的账户而不能转账,也许只有一个数百名客户受到影响。其他人指出,交易信息可以用来推测客户身份,并且当漏洞在实时代码上运行时,潜在的数万用户正在登录。最后,LCL不得不争先恐后地避免受到欧洲隐私监管机构的巨额罚款。
3. 当软件保持牢房门锁定时
2019年,亚利桑那州立法机关通过了一项法律,允许某些被判犯有非暴力罪行的囚犯在州监狱中完成计划,以加快他们的释放。但2月份的告密者透露,一年多后,跟踪囚犯释放资格的软件仍未更新以适应新法律。虽然国家坚持认为符合条件的囚犯可以并且确实可以手动重新计算他们的刑期,但事实是许多人可能不知道他们有资格获释,或者没有外界的支持者来推动他们的案件,因此他们在监狱中苦苦挣扎当法律规定他们有权自由时。
这里有几个IT课程。一个是在任何系统中构建灵活性和可扩展性的重要性。另一个原因是,软件不仅仅是软件:它对人类生活有着真实而深远的影响。最后,还有一个问题是如何以代码的形式实施法律——以及执法算法是否应该在立法过程中开发,而不是在法律已经写成之后再写出来。
4. 缅因州古老的人力资源系统
正如《波特兰新闻先驱报》所描述的那样,缅因州的人力资源和工资单由“一个40岁的系统运行,该系统用过时的语言编程,只有一名州雇员知道如何使用。”该系统已经比2016年失败的更换它的尝试更持久。另一项原定于2020年结束的尝试在去年3月爆发,双方争吵不休,因为公司聘请为缅因州推出新的基于云的系统的Workday退出了该项目。
ERP系统和类似平台的推出是出了名的容易发生灾难,缅因州的工资需求非常复杂(例如,如果州警察携带武器、使用K9工作或穿着潜水装备,他们的每小时工资就会不同)。争议的核心是一个故事,任何参与过这样的大项目的人都应该耳熟能详:缅因州说系统上线时有50%的错误率,Workday说缅因州导入系统的数据是无可救药地充满了错误。更根本的是,缅因州似乎正在雇用不具备所需技能的员工来从事该项目,而该州不愿意支付足够的工资来寻找能够达到要求的工人。加上一些裙带关系和性骚扰的指控,您就会遇到真正的IT管理混乱。缅因州仍在使用其已有40年历史的人力资源系统。
5. 亚马逊的休假问题
如果您从前两个项目中得出的结论是政府没有能力进行称职的项目管理,那么我们很遗憾地通知您,今年在一家私营企业中爆发了一场同样的危机——不仅是任何私营企业,还有亚马逊,IT和网络使之成为可能的高效率新经济的原型。
《纽约时报》的一项调查显示,亚马逊为其员工提供各种休假的内部流程极其混乱。这导致了一系列影响白领和蓝领工人的恐怖故事,例如员工因在批准休假期间不上班而被解雇,休产假的新妈妈看到他们的薪水神秘减少,以及一名受伤的伤残工人被迫卖掉他的结婚戒指换取现金,因为他的支票不再出现。
事实证明,亚马逊使用来自不同供应商的多种软件产品管理其休假系统,这是其最初快速增长的遗产,所以也许这里的教训是,您在公司历史早期做出的选择可能会在数年或数十年后产生影响。就像亚利桑那州的监狱系统一样,亚马逊试图通过人工来弥补IT功能障碍:67名全职员工致力于输入员工休假数据,这项工作压力很大,许多人最终需要自己请假。
6. 吃自己的狗粮
10月4日,世界各地的人们都无法访问Facebook、Instagram或WhatsApp,因为该公司现在在Meta上运行的所有服务都与互联网断开了连接。我们不会深入了解危机的实际原因,其中涉及边界网关协议中的错误,该错误基本上将Facebook服务与互联网的DNS系统的其余部分切断了联系。相反,我们希望关注可能与任何IT商店相关的一个细节,即使是那些不属于世界上最大的科技公司之一的那些。
在停电初期,《纽约时报》科技记者SheeraFrenkel报道称,Facebook员工无法进入公司总部,因为他们的身份证不再能开门。这反过来又阻止了技术人员对解决整体问题所需的服务器进行物理访问。不可思议的是,Facebook的电子门锁是由……Facebook驱动的。Facebook似乎相当痴迷于在Facebook自己的基础设施上运行其所有内部系统,这意味着其内部通信系统也出现故障,无法应对危机。这样做的公司的行业术语是“吃自己的狗粮”,这通常被视为对自己产品的信任投票,但Facebook的灾难表明您需要方便的备用食品供应。
7. 迅速取缔潜伏的错误
6月8日,数百万试图访问从Reddit到重要的英国政府部门的网站的互联网用户发现自己遇到了503错误代码,这表明托管该网站的服务器无法处理请求。(Twitter仍在运行,但不幸的是,它无法再显示表情符号。)这么多不同的网站怎么会同时下线?事实证明,答案与内容交付网络的兴起有关,这些网络在互联网上的战略点为其客户部署代理服务器,以确保超快的加载时间。如今,几乎每个大型内容站点都使用CDN,而这个领域的参与者并不多,因此当一个站点出现故障时,可能会导致大量互联网随之而来。
在这种情况下,单点故障是Fastly,这是一家CDN业务蓬勃发展的边缘计算提供商。5月12日快速推出了软件更新,其中包含一个错误,该错误可能由特定客户配置在合适的条件下触发。6月8日,一位客户在不知不觉中更新了他们的配置,并在软件开发和行业整合的交汇处引发了一场危机。
8. 数据泄露
10月,圣路易斯邮报的一名记者与安全专家沙吉汗合作,发现一个允许公众搜索教师证书和凭据的网站也无意中泄露了这些教师的社会安全号码。虽然这些数字实际上并未显示在搜索结果页面本身上,但它们在页面的HTML中以明文形式显示,因此很容易找到。Post-Dispatch将这个缺陷告知了州教育部门,让他们有时间纠正它,如果事情一直如此,我们现在可能不会谈论这个故事。
但在教育部发言人开始起草(从未发送)声明感谢媒体提请他们注意此事两天后,州长公开指责该报雇用“黑客”让他和州政府难堪,并承诺发起一项刑事侦察。在加倍努力之后,他面临着强烈反对和嘲笑,包括来自他自己政党成员的反击,现在肯定在谈论这个故事。所以也许这里的教训是,如何处理IT灾难的后果几乎与灾难本身一样重要。