机器学习/数据挖掘/深度学习数据集—综合数据集

UCI数据集

UCI数据集中包括了众多用于监督式和非监督式学习的数据集,数量大概400多个,其中很多数据集在其他众多数据工具中被反复引用,例如Iris、Wine、Adult、Car Evaluation、Forest Fires等。

每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习,数据挖掘

介绍和下载地址:http://archive.ics.uci.edu/ml/

UCI KDD数据集

UCI KDD(知识发现)是数据挖掘和可视化的研究项目,专注于大型数据收集中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分,UCI始于2002年10月。

推荐度:★★,推荐应用方向:监督式、非监督式机器学习

介绍地址:http://kdd.ics.uci.edu/

下载地址:http://kdd.ics.uci.edu/databases/

雅虎Webscope

雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查,以符合雅虎的数据保护标准,包括严格的隐私控制。数据集中包含了多个主题数据集:广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是:数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、自然语言理解等

介绍和下载地址:https://webscope.sandbox.yahoo.com/

AWS 公开数据集

亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据,并且这些数据可直接集成到AWS进行数据挖掘和学习。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、神经网络、自然语言理解等

介绍和下载地址:https://aws.amazon.com/cn/datasets/

斯坦福网络数据集

斯坦福网络分析平台(SNAP)是一种用于分析和操纵大型网络的通用高性能系统,其本身使用的网络相关数据也对外开放,包括设计、社区、通信、网络图、互联网、道路、维基百度网络、在线社区和评论等不同主题,可用于分析大型社会和信息网络方面的研究成果。

推荐度:★★★,推荐应用方向:神经网络

介绍和下载地址:http://snap.stanford.edu/data/index.html

KONECT网络数据集

KONECT数据集是一个大型网络数据集的项目,在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。KONECT包含数百种各种类型的网络数据集,包括有向、无向、二分、加权、未加权、签名和评级的网络。 KONECT的网络覆盖了许多不同领域,如社交网络,超链接网络、作者网络、物理网络、交互网络和通信网络等。

推荐度:★★★,推荐应用方向:神经网络

介绍和下载地址:http://konect.uni-koblenz.de/


====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>