机器学习&数据挖掘

机器学习/数据挖掘/深度学习数据集—图像和视频数据集

Author
宋天龙
发布于 2017-07-09
1663 次阅读
0 次赞
0 次分享
机器学习/数据挖掘/深度学习数据集—图像和视频数据集
AI 智能核心导读

本文系统盘点了机器学习、计算机视觉及自动驾驶领域的主流开源数据集。内容按应用场景划分为图像识别与处理、视频分析与理解、自动驾驶与车辆场景三大类,客观梳理了MNIST、ImageNet、COCO等14个经典数据集的规模、推荐度及应用方向,为模型训练与算法研究提供核心参考。

机器学习与计算机视觉:主流开源数据集精选

本文整理了机器学习、计算机视觉及自动驾驶领域内常用的主流开源数据集。为了便于查阅与检索,已将这些数据集按应用场景划分为三大类:图像识别与处理、视频分析与理解、自动驾驶与车辆场景。


一、 图像识别与处理数据集

1. MNIST 数据集

机器学习领域内用于手写字识别的数据集,数据集中包含 6 万个训练集、10000 个示例测试集。每个样本图像的宽高为 28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括 sklearn)很多都使用该数据集作为入门级别的介绍和应用。

2. CIFAR-10 & CIFAR-100 数据集

CIFAR-10 数据集由 10 个类别的 60000 张 32x32 彩色图像组成,每个类别有 6000 张图像。其中包含 50000 个训练图像和 10000 个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等日常生活类别,可用于计算机视觉相关方向。

  • 推荐度:★★★
  • 推荐应用方向:图像处理和图像识别
  • 相关链接介绍和下载地址

3. 谷歌 Open Images Dataset

其中包括大约 9 百万标注图片、横跨 6000 个类别标签,平均每个图像拥有 8 个标签。该数据集的标签涵盖比拥有 1000 个类别标签的 ImageNet 具体更多的现实实体,可用于计算机视觉方向的训练。

4. ImageNet 数据集

ImageNet 数据集是目前深度学习图像领域应用得非常多的一个领域,该数据集有 1000 多个图像,涵盖图像分类、定位、检测等应用方向。ImageNet 数据集文档详细,有专门的团队维护,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的**“标准”数据集**。很多大型科技公司都会参加 ImageNet 图像识别大赛,包括百度、谷歌、微软等。

5. COCO 数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,由微软赞助,图像中不仅有标注类别、位置信息,还有对图像的语义文本描述。COCO 数据集的开源使得近两、三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的**“标准”数据集**。

  • 推荐度:★★★
  • 推荐应用方向:图像识别、图像语义理解
  • 相关链接介绍和下载地址

6. Tiny Images Dataset

该数据集由 79302017 张图像组成,每张图像为 32x32 彩色图像。该数据以二进制文件的形式存储,大约有 400Gb 图像。

7. CoPhIR 数据集

CoPhIR 是从 Flickr 中采集的大概 1.06 亿个图像数据集,图像中不仅包含了图表本身的数据(例如位置、标题、GPS、标签、评论等),还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。

8. LSUN 数据集

国外的 PASCAL VOC 和 ImageNet ILSVRC 比赛使用的数据集,数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。

9. Labeled Faces in the Wild 数据集

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的 13000 多张图像。每张脸都贴上了所画的人的名字,图片中的 1680 人在数据集中有两个或更多不同的照片。

10. SVHN 数据集

SVHN 数据来源于 Google 街景视图中房屋信息,它是一个真实世界的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它跟 MNIST 相似,但是包含更多数量级的标签数据(超过 60 万个数字图像),并且来源更加多样,用来识别自然场景图像中的数字。

  • 推荐度:★★
  • 推荐应用方向:机器学习、图像识别
  • 相关链接介绍和下载地址

二、 视频分析与理解数据集

1. 谷歌 YouTube-8M

YouTube-8M 是一个大型的多样性标注的视频数据集,目前拥有 700 万的 YouTube 视频链接、45 万小时视频时长、3.2 亿视频/音频特征、4716 个分类、平均每个视频拥有 3 个标签。

  • 推荐度:★★★
  • 推荐应用方向:视频理解、表示学习(Representation Learning)、嘈杂数据建模、转移学习(Transfer Learning)和视频域适配方法(Domain Adaptation Approaches)
  • 相关链接介绍和下载地址

2. Udacity 开源的自然场景短视频数据集

数据集大概为 9T,由 3500 万个视频剪辑组成,每个视频为短视频(32 帧),大约 1 秒左右的时长。

  • 推荐度:★★★
  • 推荐应用方向:目标跟踪、视频目标识别
  • 相关链接介绍和下载地址

三、 自动驾驶与车辆场景数据集

1. Udacity 开源的车辆行驶视频数据集

数据集大概有 223G,主要是有关车辆驾驶的数据,其中除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。

2. 牛津 RobotCar 视频数据集

RobotCar 数据集包含时间范围超过 1 年,测试超过 100 次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。

分享
最后修订: 2017-07-09