机器学习/数据挖掘/深度学习数据集—自然语言数据集

MS MARCO

MS MARCO是一种新的大规模阅读理解和问答数据集。 在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。

推荐度:★★★,推荐应用方向:自然语言理解、智能问答

介绍和下载地址:http://www.msmarco.org/

Question Pairs

第一个来源于 Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

推荐度:★★★,推荐应用方向:自然语言理解、智能问答

介绍和下载地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

斯坦福问答回答数据集(SQuAD)是一个新的阅读理解数据集,从维基百科中提炼出的问题组成,每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。

推荐度:★★★,推荐应用方向:文本挖掘、自然语言理解、智能问答

介绍和下载地址:https://rajpurkar.github.io/SQuAD-explorer/

Maluuba NewsQA

Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取了120K个常见问题。

推荐度:★★,推荐应用方向:文本挖掘、自然语言理解、智能问答

介绍地址:https://datasets.maluuba.com/NewsQA

下载地址:https://github.com/Maluuba/newsqa

1 Billion Word Language Model Benchmark

这是一个大型、通用的语言建模数据集,该项目的目的是提供语言建模实验的标准培训和测试,常用于如 word2vec 或 Glove 的分布式词语表征。

推荐度:★★,推荐应用方向:文本挖掘、自然语言理解

介绍和下载地址:http://www.statmt.org/lm-benchmark/

Maluuba Datasets

这是一个用于自然语言理解研究的复杂的人工数据集,主要包括NewsQA和Frames。它主要用于机器阅读理解、面向对象的对话系统、对话界面和加强学习。

推荐度:★★,推荐应用方向:自然语言理解、智能问答

介绍和下载地址:https://datasets.maluuba.com/

Common Crawl

Common Crawl包含了超过7年的网络爬虫数据集,拥有PB级规模,常用于学习词嵌入。

推荐度:★★,推荐应用方向:文本挖掘、自然语言理解

介绍和下载地址:http://commoncrawl.org/the-data/

20 Newsgroups

该数据集包含大约20000个新闻组文档,在20个不同的新闻组中平均分配,是一个文本分类的经典数据集,它是机器学习技术的文本应用中的实验的流行数据集,如文本分类和文本聚类。

推荐度:★★,推荐应用方向:文本挖掘

介绍和下载地址:http://qwone.com/~jason/20Newsgroups/


====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>