MIT研究发现:十大最常用数据集标签错误率达3.4%

新闻
近日,麻省理工学院检查了10个最常引用的AI数据集。他们发现其中存在大约3.4%的数据不正确或标签错误,这可能会导致使用这些数据集的AI系统出现问题。

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

近日,麻省理工学院检查了10个最常引用的AI数据集。他们发现其中存在大约3.4%的数据不正确或标签错误,这可能会导致使用这些数据集的AI系统出现问题。

MIT研究发现:十大最常用数据集标签错误率达3.4%

这些数据集被引用次数均超过10万次,其中包括来自新闻的文本数据集, 亚马逊和IMDb评论。上图就是几个明显标签错误的例子。

为了发现可能的错误,研究人员使用了Confident Learning,检查数据集的标签噪声。

研究人员发现QuickDraw数据集错误最多,大约有500万,约占数据集的10%。

责任编辑:张燕妮 来源: 量子位
相关推荐

2020-10-23 14:14:54

语音识别ASR错误率

2023-08-08 12:34:18

ChatGPT人工智能

2022-09-04 19:38:11

机器学习算法

2022-07-19 16:23:00

数据谷歌

2022-10-08 12:04:49

语言网络安全

2018-05-21 21:34:26

Linux命令代码

2022-12-09 15:09:00

2012-10-08 09:21:49

jQuery Mobi

2009-08-26 09:09:46

服务器维护错误

2024-01-12 08:00:00

2024-03-12 08:57:39

2017-02-27 11:36:31

阿里

2013-06-28 10:41:07

产品经理

2010-02-03 10:15:30

2022-06-08 13:02:19

数据治理变革管理工具

2009-07-03 11:46:43

JSP标签库

2016-12-01 07:41:37

机器学习常用算法

2014-03-18 11:05:16

Android应用导航设计错误

2010-05-10 09:10:51

Linux

2018-02-23 10:02:25

技术阿里巴巴基因
点赞
收藏

51CTO技术栈公众号