数据集
Last updated
Was this helpful?
Last updated
Was this helpful?
近年来,深度学习在图像分类上的成功离不开大规模公开数据集的出现。 在本节中,我们列举一些在图像分类任务中常用的公开数据集。 认识这些数据集对于上手工程项目是很有必要的。
MNIST 是 LeCun 等人于 1998 年构建的一个手写数字图片的数据集,总共包含 70000 张图片,并分为训练和测试两个子集。 其中,训练集包含 60000 张图片,测试集包含 10000 张图片。 MNIST 数据集中的图片统一为灰度图片,分辨率为 28x28。 每张图片上仅包含一个手写体数字,位于图像的中央。 数据集中的样例如下图所示。
MNIST 是一个相对微小的数据集,解压后的大小也只有 55MB ,因此 MNIST 数据集常用于算法研发初期的快速实验。 需要注意的是,手写数字识别是一个相对特定的领域,因而 并不是一个通用视觉的数据集。
CIFAR-10 和 CIFAR-100 是 Krizhevsky 等人于 2009 年构建的两个图像数据集。 这两个数据集中的图片取自 tiny images 数据集,并由人工对图像中的物体进行了标注。
CIFAR-10 数据集包含 60000 张图片,包含 10 类不同的物体,每类物体 6000 张图片。其中 5000 张用于训练集,1000 张用于测试。 数据集中的 10 个类别与每个类别的样例图片如下图所示。
CIFAR-100 包含 20 个大类,100 个细分类别,每个细分类别包含 600 张图片,其中 500 张用于训练,100 张用于测试。
两个数据集中图片均为彩色图片,分辨率为 32x32 像素。
ImageNet 是李飞飞教授于 2006 年启动一个项目,旨在为计算机视觉研究提供一个更为统一的数据集。
迄今为止,ImageNet 数据集总共包含多达 1400 万张图片,2 万多个细分类别。这些类别以 WordNet 的结构组织起来。
一年一度大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)于 2010 年开始举办。 在举办之初,竞赛只包含图像分类一个项目。 随着计算机视觉技术的快速进步,比赛项目也逐渐丰富。 到 2016 年的最后一届,比赛已经包含图像定位、目标识别、视频中的目标识别、场景分类等多个项目。
图像分类比赛所使用的是 ImageNet 数据集的一个子集,包含 128 万张图片,共计 1000 个类别,每年也有所不同。 比赛所使用的数据集通常称为 ILSVRC 数据集,并标记年份以示区别。其中,ILSVRC 在所有比赛数据集中,ILSVRC 2012 是使用最为广泛的。
ImageNet 数据集中的图片来自互联网,图片的大小和分辨率也不尽相同。使用者需要根据自己的需求,对图片进行裁剪或缩放。 当用于神经网络训练时,图像通常被统一为 224x224 像素。
数据集
图片数
类别数
分辨率
体积
MNIST
70k
10
28x28
55MB, in byte format
CIFAR-10
60k
10
32x32
184MB, in byte format
CIFAR-100
60k
20/100
32x32
184MB, in byte format
ILSVRC 2012
1.2M
20k
224x224
138GB, compressed
官方网站:
官方网站: