鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

账号设置退出

MIT研究发现：十大最常用数据集标签错误率达3.4%

2021-03-29 15:04:31

近日，麻省理工学院检查了10个最常引用的AI数据集。他们发现其中存在大约3.4％的数据不正确或标签错误，这可能会导致使用这些数据集的AI系统出现问题。

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

近日，麻省理工学院检查了10个最常引用的AI数据集。他们发现其中存在大约3.4％的数据不正确或标签错误，这可能会导致使用这些数据集的AI系统出现问题。

MIT研究发现：十大最常用数据集标签错误率达3.4%

这些数据集被引用次数均超过10万次，其中包括来自新闻的文本数据集，亚马逊和IMDb评论。上图就是几个明显标签错误的例子。

为了发现可能的错误，研究人员使用了Confident Learning，检查数据集的标签噪声。

研究人员发现QuickDraw数据集错误最多，大约有500万，约占数据集的10％。

责任编辑：张燕妮来源：量子位

数据 AI 技术

51CTO技术栈公众号

业务
速览

媒体

51CTO CIOAge HC3i

社区

51CTO博客鸿蒙开发者社区 AI.x社区

教育

51CTO学堂精培企业培训 CTO训练营