使用经过挑选和标记的数据集对人工智能系统进行训练,产生了专门的人工智能模型,擅长对象识别等任务。
但是仅仅依靠这种方法也有实际的局限性,其中一个我们认为特别重要: 这样的系统可能难以识别那些日常生活中很常见,但是在训练人工智能系统的数据中「没有被充分代表」的对象。
尤其是,关于训练哪些图片以及如何给它们贴标签的选择,这可能在不经意间引入「偏见」。
例如,一个主要以「美国和欧洲」家庭图片为训练内容的物体识别系统在被要求识别「尼泊尔」一个家中的物体时,可能难以取得同样好的效果。
这是我们对SEER感到兴奋的原因之一,SEER是我们开发的一种新的高性能计算机视觉系统。
通过利用自监督学习,SEER可以从任何数字图片集中学习,而不需要研究人员来挑选和标记每个对象。
初步评估表明,SEER在识别物体方面比传统的计算机视觉系统表现更好,这些物体虽然来自数十亿人的生活,但在用于训练人工智能系统的传统图片数据集中「体现较少」。
我们希望利用SEER使人工智能更好地为每个人服务,而不仅仅是那些一直以来受益最多的群体。
从全球各地采集图片「考一考」人工智能
我们在2019年的计算机视觉系统偏差研究中使用了「Dollar Street数据集」,对SEER进行测试。SEER给出的结果令人兴奋,自监督学习让人工智能更好地为世界各地的人服务。
Dollar Street数据集——世界不同国家和地区不同收入的家庭
例如下面这张来自尼泊尔一个家庭的图,SEER的识别结果是:调料、药、碗、水果、社交饮酒
监督学习模型的识别结果是:清洗设备、厨房洗涤盆、展示物品、碗、水果、炊具、锅
所以,SEER正确地识别了图片中的物体,而传统的系统则没有。
图源:Facebook AI Blog
下面这张图来自一个中国家庭,SEER的识别结果是:炊具、炉子、锅、工具
监督学习模型的识别结果是:前门上的锁、电源开关、炊具、挂钟、炉灶
所以,SEER 正确地识别出了一个炉子,而传统的训练系统却没有。
下面这张照片显示了印度的一条小街道。SEER的识别结果是:自行车、街景、垃圾、菜地
监督学习模型的识别结果是:水果树、家、自行车、宠物、房顶
AI为人人
自监督学习在提高语言和方言的性能方面已经显示出巨大的前景,因为这些语言和方言没有大量的数字化文本作为标记的训练数据来使用。
SEER能够在上述例子中更好地进行物体识别,这是另一个令人兴奋的结果,因为该模型是在没有任何数据整理的情况下在随机的互联网图像上训练的。
这表明,用于训练SEER的自监督方法可能会对建立人工智能系统的努力产生巨大影响,这种系统不仅能有效地服务富人,而且能有效地服务整个世界。这些努力只是开始,但很明显,我们正在一条非常令人兴奋的进步之路上。