数据集

近年来，深度学习在图像分类上的成功离不开大规模公开数据集的出现。在本节中，我们列举一些在图像分类任务中常用的公开数据集。认识这些数据集对于上手工程项目是很有必要的。

MNIST

MNIST 是 LeCun 等人于 1998 年构建的一个手写数字图片的数据集，总共包含 70000 张图片，并分为训练和测试两个子集。其中，训练集包含 60000 张图片，测试集包含 10000 张图片。 MNIST 数据集中的图片统一为灰度图片，分辨率为 28x28。每张图片上仅包含一个手写体数字，位于图像的中央。数据集中的样例如下图所示。

MNIST 是一个相对微小的数据集，解压后的大小也只有 55MB ，因此 MNIST 数据集常用于算法研发初期的快速实验。需要注意的是，手写数字识别是一个相对特定的领域，因而并不是一个通用视觉的数据集。

官方网站：http://yann.lecun.com/exdb/mnist/

CIFAR

CIFAR-10 和 CIFAR-100 是 Krizhevsky 等人于 2009 年构建的两个图像数据集。这两个数据集中的图片取自 tiny images 数据集，并由人工对图像中的物体进行了标注。

CIFAR-10 数据集包含 60000 张图片，包含 10 类不同的物体，每类物体 6000 张图片。其中 5000 张用于训练集，1000 张用于测试。数据集中的 10 个类别与每个类别的样例图片如下图所示。

CIFAR-100 包含 20 个大类，100 个细分类别，每个细分类别包含 600 张图片，其中 500 张用于训练，100 张用于测试。

两个数据集中图片均为彩色图片，分辨率为 32x32 像素。

官方网站：https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet 与 ILSVRC

ImageNet 是李飞飞教授于 2006 年启动一个项目，旨在为计算机视觉研究提供一个更为统一的数据集。

迄今为止，ImageNet 数据集总共包含多达 1400 万张图片，2 万多个细分类别。这些类别以 WordNet 的结构组织起来。

一年一度大规模视觉识别挑战赛（ImageNet Large Scale Visual Recognition Challenge, ILSVRC）于 2010 年开始举办。在举办之初，竞赛只包含图像分类一个项目。随着计算机视觉技术的快速进步，比赛项目也逐渐丰富。到 2016 年的最后一届，比赛已经包含图像定位、目标识别、视频中的目标识别、场景分类等多个项目。

图像分类比赛所使用的是 ImageNet 数据集的一个子集，包含 128 万张图片，共计 1000 个类别，每年也有所不同。比赛所使用的数据集通常称为 ILSVRC 数据集，并标记年份以示区别。其中，ILSVRC 在所有比赛数据集中，ILSVRC 2012 是使用最为广泛的。

ImageNet 数据集中的图片来自互联网，图片的大小和分辨率也不尽相同。使用者需要根据自己的需求，对图片进行裁剪或缩放。当用于神经网络训练时，图像通常被统一为 224x224 像素。

数据集规模比较

数据集

图片数

类别数

分辨率

体积

MNIST

70k

28x28

55MB, in byte format

CIFAR-10

60k

32x32

184MB, in byte format

CIFAR-100

60k

20/100

32x32

184MB, in byte format

ILSVRC 2012

1.2M

20k

224x224

138GB, compressed

PreviousLeNet-5 Next评价指标

Last updated 5 years ago

hashtagMNIST

hashtagCIFAR

hashtagImageNet 与 ILSVRC

hashtag数据集规模比较

MNIST

CIFAR

ImageNet 与 ILSVRC

数据集规模比较