机器学习&数据挖掘

机器学习/数据挖掘/深度学习数据集—自然语言数据集

Author
宋天龙
发布于 2017-07-09
2028 次阅读
0 次赞
0 次分享
机器学习/数据挖掘/深度学习数据集—自然语言数据集
AI 智能核心导读

本文盘点了自然语言处理与文本挖掘领域的8个经典数据集,包括MS MARCO、SQuAD、Common Crawl等。文章客观梳理了各数据集的来源、规模与核心特征,并提供了推荐星级、适用方向(如智能问答、文本分类、语言建模等)及下载链接,为算法研究与模型训练提供了高价值的资源参考。

自然语言处理与文本挖掘经典数据集推荐

MS MARCO

MS MARCO 是一种新的大规模阅读理解和问答数据集。

在 MS MARCO 中,所有问题都是从真正的匿名用户查询中抽取的。该数据集使用先进的 Bing 搜索引擎版本,从实际的 Web 文档中提取答案的上下文段落。

  • 推荐度:★★★
  • 推荐应用方向:自然语言理解、智能问答
  • 介绍和下载地址http://www.msmarco.org/

Question Pairs

这是第一个来源于 Quora 的包含重复/语义相似性标签的数据集。数据集由超过 40 万行的潜在问题的问答组成。每行数据包含问题 ID、问题全文以及指示该行是否真正包含重复对的二进制值。


SQuAD

**斯坦福问答回答数据集(SQuAD)**是一个新的阅读理解数据集,由从维基百科中提炼出的问题组成,每个问题的答案都是相应段落的一段文本。在 500 多篇文章中有超过 10 万个问答对。


Maluuba NewsQA

Maluuba 的 NewsQA 数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从 DeepMind 问答数据集中的 CNN 文章中抽取的 12 万个常见问题。


1 Billion Word Language Model Benchmark

这是一个大型、通用的语言建模数据集。该项目的目的是提供语言建模实验的标准培训和测试,常用于如 word2vec 或 Glove 的分布式词语表征。


Maluuba Datasets

这是一个用于自然语言理解研究的复杂的人工数据集,主要包括 NewsQA 和 Frames。它主要用于机器阅读理解、面向对象的对话系统、对话界面和加强学习。


Common Crawl

Common Crawl 包含了超过 7 年的网络爬虫数据集,拥有 PB 级规模,常用于学习词嵌入。


20 Newsgroups

该数据集包含大约 20000 个新闻组文档,在 20 个不同的新闻组中平均分配,是一个文本分类的经典数据集。它是机器学习技术的文本应用(如文本分类和文本聚类)中非常流行的实验数据集。

分享
最后修订: 2017-07-09