数据集

近年来,深度学习在图像分类上的成功离不开大规模公开数据集的出现。 在本节中,我们列举一些在图像分类任务中常用的公开数据集。 认识这些数据集对于上手工程项目是很有必要的。

MNIST

MNIST 是 LeCun 等人于 1998 年构建的一个手写数字图片的数据集,总共包含 70000 张图片,并分为训练和测试两个子集。 其中,训练集包含 60000 张图片,测试集包含 10000 张图片。 MNIST 数据集中的图片统一为灰度图片,分辨率为 28x28。 每张图片上仅包含一个手写体数字,位于图像的中央。 数据集中的样例如下图所示。

MNIST 是一个相对微小的数据集,解压后的大小也只有 55MB ,因此 MNIST 数据集常用于算法研发初期的快速实验。 需要注意的是,手写数字识别是一个相对特定的领域,因而 并不是一个通用视觉的数据集。

官方网站:http://yann.lecun.com/exdb/mnist/

CIFAR

CIFAR-10 和 CIFAR-100 是 Krizhevsky 等人于 2009 年构建的两个图像数据集。 这两个数据集中的图片取自 tiny images 数据集,并由人工对图像中的物体进行了标注。

CIFAR-10 数据集包含 60000 张图片,包含 10 类不同的物体,每类物体 6000 张图片。其中 5000 张用于训练集,1000 张用于测试。 数据集中的 10 个类别与每个类别的样例图片如下图所示。

CIFAR-100 包含 20 个大类,100 个细分类别,每个细分类别包含 600 张图片,其中 500 张用于训练,100 张用于测试。

两个数据集中图片均为彩色图片,分辨率为 32x32 像素。

官方网站:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet 与 ILSVRC

ImageNet 是李飞飞教授于 2006 年启动一个项目,旨在为计算机视觉研究提供一个更为统一的数据集。

迄今为止,ImageNet 数据集总共包含多达 1400 万张图片,2 万多个细分类别。这些类别以 WordNet 的结构组织起来。

一年一度大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)于 2010 年开始举办。 在举办之初,竞赛只包含图像分类一个项目。 随着计算机视觉技术的快速进步,比赛项目也逐渐丰富。 到 2016 年的最后一届,比赛已经包含图像定位、目标识别、视频中的目标识别、场景分类等多个项目。

图像分类比赛所使用的是 ImageNet 数据集的一个子集,包含 128 万张图片,共计 1000 个类别,每年也有所不同。 比赛所使用的数据集通常称为 ILSVRC 数据集,并标记年份以示区别。其中,ILSVRC 在所有比赛数据集中,ILSVRC 2012 是使用最为广泛的。

ImageNet 数据集中的图片来自互联网,图片的大小和分辨率也不尽相同。使用者需要根据自己的需求,对图片进行裁剪或缩放。 当用于神经网络训练时,图像通常被统一为 224x224 像素。

数据集规模比较

数据集

图片数

类别数

分辨率

体积

MNIST

70k

10

28x28

55MB, in byte format

CIFAR-10

60k

10

32x32

184MB, in byte format

CIFAR-100

60k

20/100

32x32

184MB, in byte format

ILSVRC 2012

1.2M

20k

224x224

138GB, compressed

Last updated