机器学习/数据挖掘/深度学习数据集—综合数据集
“本文盘点了6大高质量机器学习与网络分析公开数据集,包括UCI、UCI KDD、雅虎Webscope、AWS、斯坦福SNAP及KONECT。文章详细梳理了各数据集的涵盖领域、推荐应用方向及获取地址,为数据挖掘、深度学习与网络科学等领域的研究开发提供了极具价值的资源指南。”
6 大高质量机器学习与网络分析公开数据集盘点
1. UCI 数据集
UCI 数据集中包括了众多用于监督式和非监督式学习的数据集,数量大概 400 多个。其中很多数据集在其他众多数据工具中被反复引用,例如 Iris、Wine、Adult、Car Evaluation、Forest Fires 等。
每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可广泛用于分类、回归、聚类、时间序列、推荐系统等任务。
- 推荐度:★★★
- 推荐应用方向:监督式、非监督式机器学习,数据挖掘
- 介绍和下载地址:http://archive.ics.uci.edu/ml/
2. UCI KDD 数据集
UCI KDD(知识发现)是数据挖掘和可视化的研究项目,专注于大型数据收集中的实体事件关系。它是涉及几所大学的更广泛的 KDD 项目的一部分,UCI 始于 2002 年 10 月。
- 推荐度:★★
- 推荐应用方向:监督式、非监督式机器学习
- 介绍地址:http://kdd.ics.uci.edu/
- 下载地址:http://kdd.ics.uci.edu/databases/
3. 雅虎 Webscope
雅虎 Webscope 致力于为学者和其他科学家在非商业用途中提供数据支持。所有数据集已经过审查,以符合雅虎的数据保护标准,包括严格的隐私控制。
数据集中包含了多个主题数据集,主要涵盖以下 7 个主题:广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等。
⚠️ 注意事项:数据集只适用于同意数据共享协议的教师和大学研究人员在学术上使用。
- 推荐度:★★★
- 推荐应用方向:监督式、非监督式机器学习、深度学习、自然语言理解等
- 介绍和下载地址:https://webscope.sandbox.yahoo.com/
4. AWS 公开数据集
亚马逊提供的数据集涵盖了气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常丰富的领域。这些数据可直接集成到 AWS 进行数据挖掘和学习,极大提升了开发效率。
- 推荐度:★★★
- 推荐应用方向:监督式、非监督式机器学习、深度学习、神经网络、自然语言理解等
- 介绍和下载地址:https://aws.amazon.com/cn/datasets/
5. 斯坦福网络数据集 (SNAP)
斯坦福网络分析平台(SNAP)是一种用于分析和操纵大型网络的通用高性能系统,其本身使用的网络相关数据也对外开放。
该数据集包括设计、社区、通信、网络图、互联网、道路、维基百科网络、在线社区和评论等不同主题,可用于分析大型社会和信息网络方面的研究成果。
- 推荐度:★★★
- 推荐应用方向:神经网络
- 介绍和下载地址:http://snap.stanford.edu/data/index.html
6. KONECT 网络数据集
KONECT 数据集是一个大型网络数据集的项目,在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。
KONECT 包含数百种各种类型的网络数据集,包括有向、无向、二分、加权、未加权、签名和评级的网络。其网络覆盖了许多不同领域,如:社交网络、超链接网络、作者网络、物理网络、交互网络和通信网络等。
- 推荐度:★★★
- 推荐应用方向:神经网络
- 介绍和下载地址:http://konect.uni-koblenz.de/