Facebook 宣布开源了一个名为 Casual Conversations 的视频数据集,旨在帮助研究人员评估其计算机视觉和音频模型在各种年龄、性别、明显的肤色和周围光线条件下的准确性,以消除 AI 偏见。
Casual Conversations 中包含了 3011 名参与者的 45000 多个视频,均匀分布了不同的性别、年龄段和肤色。Facebook 要求其中的付费参与者提交视频并自己提供了年龄和性别标签,以尽可能地消除误差。
此外,Facebook 还为 Casual Conversations 招募了一些训练有素的注释员。这些注释员在每个视频中标注了光照水平,以帮助衡量 AI 模型在低光环境条件下如何对待不同肤色的人。并根据 Fitzpatrick 量表对参与者的肤色进行了标记。Fitzpatrick 量表是美国皮肤科医生 Thomas B. Fitzpatrick 在 1975 年开发的一种肤色分类模式,根据皮肤类型对紫外线的反应进行了概括分类,包括了 I 型(总是灼伤而从不晒黑的苍白皮肤)到 VI 型(从不灼伤的深色素皮肤)。
Facebook 的 AI 团队指出,其新的 Casual Conversations 数据集除了准确性测试外,还应该作为一种辅助工具,用于衡量数据集所代表的社区的计算机视觉和音频模型的公平性。
目前,虽然该数据集已经提供给开源社区使用,但 Facebook 也指出,Casual Conversations 仍有其局限性。例如,其只提供了”男性“、”女性“和”其他“的性别标签选项,而没有包含那些认定为非二元的之类的性别。
该公司表示,在接下里的一年左右的时间里,其将继续探索扩大这一数据集的途径,使其更具包容性,代表的内容包括更广泛的性别认同、年龄、地理位置、活动和其他特征。
本文转自OSCHINA
本文标题:Facebook 开源数据集,旨在消除 AI 偏见
本文地址:https://www.oschina.net/news/136989/facebook-casual-conversations-dataset