机器学习中的数据偏差是一种错误,其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例,从而导致结果偏斜、精度低和分析错误。
通常,机器学习项目的培训数据必须代表现实世界。这一点很重要,因为此数据是计算机学习完成工作的一种方法。数据偏差可能发生在一系列领域,从人类报告和选择偏差到算法和解释偏差。下图是仅出现在数据收集和注释阶段的各种偏差的一个很好的示例。
解决机器学习项目中的数据偏差问题意味着首先要确定数据偏差的所在位置。只有在知道存在偏差的地方后,才能采取必要的步骤来纠正,无论是解决缺少数据的问题还是改进注释过程。有鉴于此,对数据的范围、质量和处理保持警惕,尽可能避免偏差,这一点非常重要。这不仅影响模型的准确性,还可以影响道德、公平和包容问题。
本文列出了机器学习中最常见的七种数据偏差类型,可以帮助大家分析并了解偏差发生在哪里,以及我们可以对偏差做什么。
数据偏差的类型
这个列表虽然不是所有数据偏差类型都包括在内,但是常见的数据偏差示例,以及数据偏差发生的位置的示例已经包含其中。
示例偏差:当数据集不反映模型将运行的环境的现实时,就会出现示例偏差。例如某些面部识别系统主要训练对象是白人男子,因此这些模式对妇女和不同族裔的人的准确性要低得多。这种偏见的另一个名称是选择偏差。
排除偏差:排除偏差在数据预处理阶段最常见。最常见的情况是删除被认为不重要的有价值的数据。此外,系统在排除某些信息时,也有可能会发生偏差。例如,假设我们有一个北京和深圳的客户销售数据集。98% 的客户来自北京,因此我们选择删除位置数据,认为该位置数据无关紧要。但是,这就意味着我们的模型不会发现深圳客户增加了两倍的事情。
测量偏差:当为训练收集的数据与现实世界中收集的数据不同时,或者当测量错误导致数据失真时,将发生此类偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种类型的摄像机采集的,而生产数据是用另一种摄像机采集的。在项目的数据标记阶段,由于注释不一致,也可能出现测量偏差。
召回偏差:这也是一种测量偏差,在项目的数据标记阶段很常见。当我们对相同类型的数据进行不一致标记时,就会出现召回偏差,导致精度降低。例如,假设我们的团队将手机图像标记为损坏、部分损坏或未损坏。如果有人将图像标为已损坏,但将类似的图像标为部分损坏,那么我们的数据就会不一致。
观察者偏见:也称为确认偏差,观察者偏差是指在数据中看到自己希望看到的结果。当研究人员带着对研究的主观想法(无论是有意识的还是无意识的)进入项目时,就可能发生这种情况。当贴标签的人让他们的主观想法控制其标签的习惯,就会导致数据不准确。
种族偏见:虽然不是传统意义上的数据偏见,但由于它最近在人工智能技术中的流行,该偏差还是值得一提的。当数据偏向于特定人口统计学时,就产生种族偏见。从面部识别和自动语音识别技术中看出,这种技术无法像白种人那样准确地识别其他有色人种。
关联偏差:当机器学习模型的数据强化和/或让文化偏差成倍增加时,将发生这种偏差。你的数据集可能包含一组工作,其中所有男性都是医生,所有女性都是护士。这并不意味着女人不能当医生,男人不能当护士。然而,就机器学习模型而言,女医生和男护士并不存在。关联偏见最出名的是制造性别偏见,这一点在挖掘人工智能研究中可见一斑。
如何避免机器学习项目中的数据偏差?
在机器学习项目中防止数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时存在偏差,但我们可以采取许多步骤来帮助防止偏差或及早发现偏差。下面的内容就是机器学习项目出现数据偏差时的一些常规手段:
- 尽较大努力,提前研究我们的用户。记得要注意我们的一般用例和潜在的异常值。
- 确保我们的数据科学家和数据标签团队多元化。
- 在可能的情况下,结合来自多个来源的输入,以确保数据的多样性。
- 为数据标签创建黄金标准。黄金标准是一组数据,反映任务的理想标记数据,能让我们能够测量团队的注释的准确性。
- 为数据标签期望制定明确的准则,以便所有的数据标签者都能对期望值保持一致。
- 对于数据准确性可能容易出现偏差的所有项目,记得使用多通道注释。这方面的示例包括情绪分析、内容审核和意图识别。
- 获得具有领域专业知识的人的帮助,检查我们收集和/或注释的数据。团队外部的人可能会更容易看到团队所忽视的偏差。
- 定期分析我们的数据。跟踪错误和问题区域,以便快速响应和解决错误和问题区域。在决定删除或保留数据点之前,请仔细分析数据点。
- 将偏差测试作为开发周期的一部分。谷歌、IBM 和微软都发布了工具和指南,用于帮助分析对多种不同数据类型的偏差。
总结
了解任何数据项目的机器学习中的潜在偏差是非常重要的。通过尽早建立正确的系统并控制数据收集、标记和实现,我们可以在问题出现之前或在它出现之时做出反应,从而减少我们的成本,提高模型的准确率。