深度学习中常用的开源数据集-51CTO.COM

图像分类

1.MNIST

http://yann.lecun.com/exdb/mnist/

MNIST 数据集是机器学习和计算机视觉领域中最著名的数据集之一，常用于训练各种图像处理系统。

MNIST 数据集包含了 70,000 张小型的黑白图像，每张图像的大小是 28x28 像素。每个图像都是手写数字（0到9）的一个实例。

它非常适合初学者练习图像分类技术和卷积神经网络（CNN）等算法。

图片

2.CIFAR-10

CIFAR-10 数据集是另一种在机器学习和计算机视觉研究领域广泛使用的标准数据集。

https://www.cs.toronto.edu/~kriz/cifar.html

它由加拿大高级研究院（Canadian Institute For Advanced Research, CIFAR）发布，因此得名 CIFAR。CIFAR-10 特别适用于开发和测试图像识别算法。

CIFAR-10 包含 60,000 张 32x32 像素的彩色图像，这些图像被分为 10 个类别，每个类别各 6,000 张图像。这些类别包括：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

图片

3.ImageNet

https://www.image-net.org/

ImageNet 数据集是一个大规模的图像数据集，广泛用于计算机视觉研究和各种图像处理算法的训练和测试。

这个数据集由斯坦福大学的研究人员启动和维护，包含超过 1400 万张图片和超过 20,000 个类别。

它用于大规模视觉识别挑战和训练深度学习模型。

图片

4.fashion-mnist

Fashion-MNIST 数据集是由 Zalando（一家德国的时尚科技公司）发布的一个图像数据集，旨在作为机器学习研究中经典的 MNIST 手写数字数据集的直接替代品。

Fashion-MNIST 包含 70,000 张 28x28 像素的灰度图像，这些图像分为 10 个类别，每个类别有 7,000 张图像，这些类别包括：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和踝靴。

图片

5.CelebA

https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

CelebA 数据集是一个大型的人脸属性数据集，广泛用于计算机视觉研究中，特别是在面部识别、面部属性识别和面部编辑等领域。

这个数据集由香港中文大学的研究者开发和维护，CelebA 包含超过 200,000 张名人面部的图像，覆盖了大约 10,000 名不同的名人，每张图像都标有 40 种不同的属性（如发型、帽子、眼镜、笑容等），以及 5 个关键点位置（眼睛、鼻子、嘴巴）的标记。

图片

自然语言处理

6.IMDB 评论

https://ai.stanford.edu/~amaas/data/sentiment/)

IMDB 评论数据集（Internet Movie Database Review Dataset）是一个广泛用于自然语言处理（NLP）和情感分析研究的数据集。

它包含来自 IMDB 网站的 50,000条电影评论，分为训练集和测试集各 25,000 条，每个评论都是一个文本片段，并且带有一个标签，表示该评论是正面的（positive）还是负面的（negative）。

图片

7.20个新闻组

https://www.kaggle.com/datasets/crawford/20-newsgroups

20 个新闻组数据集由 Ken Lang 编制，包含约 18000 个新闻组文档，分布在 20 个不同的新闻组。

它常用于文本分类和聚类任务。

图片

8.SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集，由众包工作者针对一系列维基百科文章提出的问题组成，其中每个问题的答案都是来自相应段落的一段文本。斯坦福问答数据集包含 100,000 多个用于机器理解的问题。

图片

9.GLUE

https://gluebenchmark.com/

GLUE (General Language Understanding Evaluation) 是一个用于评估自然语言处理（NLP）模型在广泛语言理解任务上的性能的基准数据集。

GLUE 旨在提供一个综合性的评估框架，通过多个不同的NLP任务来测试模型的广泛性和鲁棒性。

10.COCO

https://cocodataset.org/#home

COCO 数据集是一个用于对象检测、分割和图像字幕生成的广泛使用的基准数据集。

它由微软研究院发布，旨在提供丰富的标注数据，用于训练和评估计算机视觉模型。

图片

11.Sentiment140

https://www.kaggle.com/datasets/kazanova/sentiment140

Sentiment140 数据集包含来自Twitter的160万条标注推文。这些推文被标注为正面或负面情感，主要用于训练和评估情感分类模型。

12.Yelp 开放数据集

https://www.yelp.com/dataset

Yelp数据集包含了用户对不同业务的评论、评分、用户信息、业务信息等。它常用于研究和开发推荐系统、情感分析、文本分类和其他NLP任务。

语音识别

13.LibriSpeech

https://www.openslr.org/12/

LibriSpeech 数据集包含约1000小时的英语语音数据，主要用于训练和评估语音识别系统。

该数据集中的音频文件经过高质量的预处理，并且都带有准确的文字转录。

图片

14.VoxCeleb

https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb 数据集包含大量名人的音频片段，这些片段从 YouTube 视频中提取，并经过仔细的过滤和标注，以确保数据的质量和多样性。

图片

卫生保健

15.Breast Cancer Wisconsin

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

Breast Cancer Wisconsin 数据集是一个广泛用于机器学习和数据挖掘领域的医学数据集，主要用于训练和评估分类模型，以区分良性和恶性乳腺肿瘤。

该数据集包含569个样本，每个样本有30个特征，这些特征从细胞核的图像中提取。

图片

深度学习中常用的开源数据集