机器学习与计算机视觉：主流开源数据集精选

本文整理了机器学习、计算机视觉及自动驾驶领域内常用的主流开源数据集。为了便于查阅与检索，已将这些数据集按应用场景划分为三大类：图像识别与处理、视频分析与理解、自动驾驶与车辆场景。

一、图像识别与处理数据集

1. MNIST 数据集

机器学习领域内用于手写字识别的数据集，数据集中包含 6 万个训练集、10000 个示例测试集。每个样本图像的宽高为 28*28。这些数据集的大小已经归一化，并且形成固定大小，因此预处理工作基本已经完成。在机器学习中，主流的机器学习工具（包括 sklearn）很多都使用该数据集作为入门级别的介绍和应用。

推荐度：★★★
推荐应用方向：机器学习入门
相关链接：介绍和下载地址

2. CIFAR-10 & CIFAR-100 数据集

CIFAR-10 数据集由 10 个类别的 60000 张 32x32 彩色图像组成，每个类别有 6000 张图像。其中包含 50000 个训练图像和 10000 个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等日常生活类别，可用于计算机视觉相关方向。

推荐度：★★★
推荐应用方向：图像处理和图像识别
相关链接：介绍和下载地址

3. 谷歌 Open Images Dataset

其中包括大约 9 百万标注图片、横跨 6000 个类别标签，平均每个图像拥有 8 个标签。该数据集的标签涵盖比拥有 1000 个类别标签的 ImageNet 具体更多的现实实体，可用于计算机视觉方向的训练。

推荐度：★★★
推荐应用方向：图像处理和图像识别
相关链接：
- 介绍地址
- 下载地址

4. ImageNet 数据集

ImageNet 数据集是目前深度学习图像领域应用得非常多的一个领域，该数据集有 1000 多个图像，涵盖图像分类、定位、检测等应用方向。ImageNet 数据集文档详细，有专门的团队维护，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的**“标准”数据集**。很多大型科技公司都会参加 ImageNet 图像识别大赛，包括百度、谷歌、微软等。

推荐度：★★★
推荐应用方向：图像识别
相关链接：介绍和下载地址

5. COCO 数据集

COCO（Common Objects in Context）是一个新的图像识别、分割和图像语义数据集，由微软赞助，图像中不仅有标注类别、位置信息，还有对图像的语义文本描述。COCO 数据集的开源使得近两、三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的**“标准”数据集**。

推荐度：★★★
推荐应用方向：图像识别、图像语义理解
相关链接：介绍和下载地址

6. Tiny Images Dataset

该数据集由 79302017 张图像组成，每张图像为 32x32 彩色图像。该数据以二进制文件的形式存储，大约有 400Gb 图像。

推荐度：★★
推荐应用方向：图像识别
相关链接：介绍和下载地址

7. CoPhIR 数据集

CoPhIR 是从 Flickr 中采集的大概 1.06 亿个图像数据集，图像中不仅包含了图表本身的数据（例如位置、标题、GPS、标签、评论等），还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。

推荐度：★★
推荐应用方向：图像识别
相关链接：介绍和下载地址

8. LSUN 数据集

国外的 PASCAL VOC 和 ImageNet ILSVRC 比赛使用的数据集，数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。

推荐度：★★
推荐应用方向：图像识别
相关链接：介绍和下载地址

9. Labeled Faces in the Wild 数据集

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的 13000 多张图像。每张脸都贴上了所画的人的名字，图片中的 1680 人在数据集中有两个或更多不同的照片。

推荐度：★★
推荐应用方向：人脸识别
相关链接：介绍和下载地址

10. SVHN 数据集

SVHN 数据来源于 Google 街景视图中房屋信息，它是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式化的要求最低。它跟 MNIST 相似，但是包含更多数量级的标签数据（超过 60 万个数字图像），并且来源更加多样，用来识别自然场景图像中的数字。

推荐度：★★
推荐应用方向：机器学习、图像识别
相关链接：介绍和下载地址

二、视频分析与理解数据集

1. 谷歌 YouTube-8M

YouTube-8M 是一个大型的多样性标注的视频数据集，目前拥有 700 万的 YouTube 视频链接、45 万小时视频时长、3.2 亿视频/音频特征、4716 个分类、平均每个视频拥有 3 个标签。

推荐度：★★★
推荐应用方向：视频理解、表示学习（Representation Learning）、嘈杂数据建模、转移学习（Transfer Learning）和视频域适配方法（Domain Adaptation Approaches）
相关链接：介绍和下载地址

2. Udacity 开源的自然场景短视频数据集

数据集大概为 9T，由 3500 万个视频剪辑组成，每个视频为短视频（32 帧），大约 1 秒左右的时长。

推荐度：★★★
推荐应用方向：目标跟踪、视频目标识别
相关链接：介绍和下载地址

三、自动驾驶与车辆场景数据集

1. Udacity 开源的车辆行驶视频数据集

数据集大概有 223G，主要是有关车辆驾驶的数据，其中除了车辆拍摄的图像以外，还包括车辆本身的属性和参数信息，例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。

推荐度：★★★
推荐应用方向：自动驾驶
相关链接：介绍和下载地址

2. 牛津 RobotCar 视频数据集

RobotCar 数据集包含时间范围超过 1 年，测试超过 100 次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。

推荐度：★★★
推荐应用方向：自动驾驶
相关链接：介绍和下载地址

#机器学习与计算机视觉：主流开源数据集精选

#一、 图像识别与处理数据集

#1. MNIST 数据集

#2. CIFAR-10 & CIFAR-100 数据集

#3. 谷歌 Open Images Dataset

#4. ImageNet 数据集

#5. COCO 数据集

#6. Tiny Images Dataset

#7. CoPhIR 数据集

#8. LSUN 数据集

#9. Labeled Faces in the Wild 数据集

#10. SVHN 数据集

#二、 视频分析与理解数据集

#1. 谷歌 YouTube-8M

#2. Udacity 开源的自然场景短视频数据集

#三、 自动驾驶与车辆场景数据集

#1. Udacity 开源的车辆行驶视频数据集

#2. 牛津 RobotCar 视频数据集

机器学习与计算机视觉：主流开源数据集精选

一、图像识别与处理数据集

1. MNIST 数据集

2. CIFAR-10 & CIFAR-100 数据集

3. 谷歌 Open Images Dataset

4. ImageNet 数据集

5. COCO 数据集

6. Tiny Images Dataset

7. CoPhIR 数据集

8. LSUN 数据集

9. Labeled Faces in the Wild 数据集

10. SVHN 数据集

二、视频分析与理解数据集

1. 谷歌 YouTube-8M

2. Udacity 开源的自然场景短视频数据集

三、自动驾驶与车辆场景数据集

1. Udacity 开源的车辆行驶视频数据集

2. 牛津 RobotCar 视频数据集