数据管道的不同部分都会产生偏见。人们非常关注在分析过程中可能出现的偏见,但其实偏见可能出现在数据管道的更早期阶段。
俄亥俄州立大学柯万种族研究所高级研究员Kelly Capatosto表示,偏见有可能早在收集数据前就进入数据生命周期。
她说:“如果有人基于调查结果来确定程序、模型或算法的运行方式,那么设计师的先入为主的观念可能最终会融入到该过程中。”
现在对大型数据集及其所包含的偏见的审查越来越多。在目标市场营销等领域中故意偏见可能会有所优势,因为数据偏见可以提供更直接的见解,但大数据偏见会很快成为企业面临的问题。
下面是发现偏见和减轻其影响的方法:
在哪里找到它
Enterprise Strategy Group(ESG)的高级分析师Mike Leone说:“偏见出现在数据生命周期的早期。”
即使在数据收集过程中,也可能会无意中包含偏见。正如Capatosto所说,某些偏见可能会根深蒂固于用于收集数据的调查中,但是由于访问障碍,偏见也可能出现数据收集过程。最近的美国人口普查就是一个例子。
Capatosto说:“语言、贫困、获取技术等方面存在障碍,这使得很难将这种信息有意义地整合到任何给定过程中。”
另一件事是混杂。Capatosto说,算法偏差最突出的问题之一是将身份与一定程度的风险混为一谈。
Capatosto说:“在医疗保健方面,这非常重要,它具有联系人追踪功能,以及如何利用大数据和其他措施来建立围绕健康问题的公共设施和基础设施。”
她引用了最近的一项研究,该研究发现某些社区据称具有更普遍的医疗保健需求,但是满足这些需求的参数是花在医疗保健上的钱。其他研究发现,费用是有偏见的参数,因为有时费用本身首先是获取医疗保健的障碍。
虽然移除大数据中的恶意意图偏见很重要,但有时有必要包含偏见。
Gartner公司副总裁Svetlana Sicular说:“如果数据量很大,你可能只想知道某个特定人群。”
Leone认为,故意偏见在某种程度上意味着分析重点。当涉及个性化或瞄准特定目标人群时,有偏见的数据集可以帮助实现这些目标。
他说:“偏见可为每位客户提供真正定制的体验。”
但是,使用目标数据集来定制受众的体验,并不会引起大数据偏差的大问题。更大的问题是无意识的偏见。
Sicular说:“无意的偏见可以源自不同的目的,包括恶意目的,例如使数据中毒或攻击模型。”
Sicular表示,大数据无意偏见的示例是2019年Apple Card推出。在发行之后不久,该算法被发现为女性设置较低的信用额度。尽管苹果和高盛(Goldman Sachs)声称这种歧视是无意的,但这样的事情可能构成最大的问题,即大数据中出现无意的偏见。
Sicular说:“很多技术,很多平台都试图获得可解释性,解释算法内部发生了什么。”
在整个数据管道中,建立这种可解释性可以减轻无意识的偏见。Capatosto说,这需要首先了解和熟悉大数据偏见的概念。这里的关键是建立透明度和强大的数据治理流程,以消除数据集中的偏差。
她说:“首先,要确保问责制不仅仅是事后的想法。”
多元化团队
Leone说,多元化的数据团队可以确定何时需要故意偏见。Sicular说,一个由具有不同背景的人组成的团队将根据他们的不同经验提出疑问,这些经验可能会改变方法。
她说:“一个人可能不会考虑某些事情。”
但是,如何聘用多元化的团队很重要。目标不仅是拥有一支多元化的团队来校准数据。 Capatosto说,从设计到部署的整个过程中,这些不同的观点都是必要的。
她补充说,数据团队的多样性可以帮助减少大数据中的偏见。她说:“我认为,意见、观点和优势点的多样性将始终有助于尽早发现这些问题。”