偏见是机器学习中的一个重大问题,必须加以解决或缓解。企业需要采取重要步骤,帮助减轻未来的压力。
无论人们认为自己的文化、社会或环境意识有多强,偏见通常是每个人与生俱来的特质。人们很自然地被那些能证实自己信念的事实所吸引。例如,大多数人认为年轻人会比年长的同事更好地完成某些任务,反之亦然。很多研究表明,相貌良好的求职者比相貌普通的求职者更容易被录用。这样的例子不胜枚举。
作为人类,不能自信地说自己的决策是没有偏见的。这个问题的根本原因是偏见在不知不觉中滋生和蔓延,使人们无法判断自己所做的决定是否存在偏见。
这就是有偏见的人工智能算法的概念不应该令人惊讶的原因,因为人工智能系统的全部意义就是复制人类的决策模式。为了构建一个功能性的人工智能系统,开发人员用大量解决特定问题的真实例子进行训练。
例如,为了构建一个可以帮助分类求职申请的人工智能系统,开发工程师会向算法展示许多被录用和被拒绝的简历。然后人工智能系统将找出影响决策的主要因素,开发者将测试系统的准确性并进行部署它。在这个简单的例子中会出现两个问题:一是人力资源专家的决策一开始就存在偏见,二是训练数据集可能不代表特定的性别、年龄、种族等数据。例如,从历史上看,一家企业可能在无意中只雇佣男性应聘者担任前台开发人员,这导致人工智能将女性应聘者排除在外,甚至不给她们面试的机会。这就引出了消除人工智能偏见的第一种方法。
1.数据公平
人工智能在克服许多挑战方面发挥了重要作用。然而,人工智能系统采用的数据必须结构良好,并且尽可能不带偏见。
在大多数情况下,人工智能出现偏见的最主要原因在于训练数据,尤其是对于缺乏经验的开发人员或小公司来说。获得一个足够多样化的数据集,需要将每个人口统计或任何其他关键属性考虑在内,这是数据科学家梦寐以求的事情。这就是企业在开发人工智能时应该尽力消除训练数据中的偏见的原因,并在开发过程的每个阶段都考虑到这一点。
艾伦·图灵研究所介绍了一种方法,旨在揭示数据集问题。例如,一家企业雇佣使用人工智能系统的前端开发人员。在这种情况下,为了确保算法是公平的,开发人员需要进行一个简单的测试,让人工智能系统评估两个拥有相同技能和经验的应聘者,唯一的区别是性别或其他非必要的变量。公正的人工智能系统将会给这两名应聘者相同的评分,而不公正的人工智能会给男性应聘者打出更高的分数,这表明该系统需要做出调整。
该研究所制定了一套指导方针,以帮助人工智能开发者确保模型的公平性。这些举措将在解决人工智能的偏见问题方面发挥越来越重要的作用。
2.对抗性学习
除了有缺陷的数据集,在模型学习阶段也会出现偏见。为了应对这种情况,许多开发人员现在采用了对抗性学习方法。这意味着除了采用主模型(例如对应用程序进行排序的模型)之外,还需要采用另一个模型,该模型试图根据主模型的结果找出敏感变量(年龄、性别、种族等)。如果主模型是无偏置的,对抗性模型将无法确定敏感属性。数据科学家认为这种技术是最有效、最容易使用的方法之一,因为与传统的重新权衡方法不同,对抗性学习可以应用于大多数建模方法。
3.基于拒绝选项的分类
最后,还有一些后处理技术可以帮助消除偏见。这种方法的吸引力在于,工程师和数据科学家不需要为调整模型或更改数据集而烦恼,因为只需要修改模型输出即可。
拒绝基于选项的分类是最流行的后处理技术之一。本质上,通过拒绝模型最不可信的预测来减少偏差。例如,可以将置信阈值设置为0.4。如果预测确定性为0.39或更低,人工智能系统将标记输出为具有偏见。
4.团队的多样性
在人工智能领域的导航更多地依赖于对业务环境的理解,而不是人们通常认为的那样。毫无疑问,数据科学与数据处理密切相关,但了解这些数据背后的内容也同样重要。即便如此,数据科学家无意识的偏见在影响他们的算法方面也发挥了关键作用。这就是消除人工智能中的偏见往往与雇用不同种族、性别和背景的人员密切相关的原因。
为了使招聘更加公平合理,企业需要采用更客观的面试技巧。尤其是在大企业,很多面试都局限于传统的简历筛选。有远见和创新精神的企业需要将现实世界的基于项目的数据分析作为他们面试过程的核心部分。他们不仅会评估应聘者在数据分析方面的科学表现,还会确保他们能够在商业环境中解释研究结果。
随着人工智能成为许多商业转型背后的驱动力,必须建立明确的框架来解决人工智能中的偏见。人们需要认识到无论采取什么措施,并不能完全减少偏见。然而,控制算法中的偏见要比控制人类的偏见要容易得多。