机器学习/数据挖掘/深度学习数据集—音频数据集

大型音乐分析数据集FMA

该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计689种歌曲和68种类型。该数据集可用于音乐分析。

推荐度:★★★,推荐应用方向:音乐分析挖掘

介绍和下载地址:https://lts2.epfl.ch/datasets/fma/

音频数据集AudioSet

谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。

推荐度:★★★,推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音分析挖掘

介绍和下载地址:https://github.com/audioset/ontology

2000 HUB5 English Evaluation Transcripts

该数据集由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。

推荐度:★★★,推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别

介绍和下载地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

该数据集为包含文本和语音的有声读物数据集,由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物,并经过细致的细分和一致。

推荐度:★★,推荐应用方向:自然语音理解和分析挖掘

介绍和下载地址:http://www.openslr.org/12/

VoxForge

该数据集是带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。

推荐度:★★,推荐应用方向:语音识别

介绍和下载地址:http://www.voxforge.org/

TIMIT

这是一份英文语音识别数据集,包含630个扬声器的宽带录音,八个主要方言的美式英语,每个阅读十个语音丰富的句子。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。

推荐度:★★,推荐应用方向:语音识别

介绍和下载地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME

这份语音一份包含环境噪音的用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)的数据集。该数据集包含了训练集、开发机、测试集三部分,每份里面包括了多个扬声器在不同噪音环境下的数据。

推荐度:★★★,推荐应用方向:语音识别

介绍和下载地址:http://spandh.dcs.shef.ac.uk/chime_challenge/index.html

TED-LIUM

TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。

推荐度:★★★,推荐应用方向:语音识别

介绍和下载地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

 

除了上述公开数据集外,不要忘记大多数机器学习和数据挖掘工具本身也附带有datasets资源,甚至像sklearn还提供了生成模拟数据的功能,请见sklearn中的datasets方法。


====================【好书推荐,我为自己代言】====================

《电商流量数据化运营》出版了!

  • 10余年业务经验总结:将我在甲方和乙方,跨企业和跨行业的经验总结起来,供大家快速提升,少走弯路。
  • 流量运营教科书:内容围绕流量数据化运营的全流程展开,涵盖渠道策略与计划管理、媒体投放与执行管理、渠道投放效果评估与分析、流量运营监控与效果复盘等各个环节。
  • 有用、实用:不讲数据分析理论,不讲数据分析工具使用,所有方法均可在工作中直接使用,而且围绕流量数据化运营的常见问题展开。
  • 易用、易读:不要求会Python,会用Excel就行,无晦涩难懂的理论和复杂的推导过程。
  • 以场景应用为核心:以业务场景为切入点,内容上围绕业务问题、数据支持方案、实用工具实操的思路,用数据解决每个具体业务问题。
如果你对本书感兴趣,请点击这里查看更多信息!当然,你也可以先加我微信了解一下。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注