机器学习/数据挖掘/深度学习数据集—音频数据集
“本文盘点了8个精选的音频与语音分析开源数据集,主要分为音乐与综合音频、语音识别与理解两大类。文章详细介绍了FMA、AudioSet、LibriSpeech等数据集的规模、特点、推荐应用方向及下载链接,并补充了机器学习工具内置数据集的获取提示,为相关领域的开发者提供了高质量的数据资源参考。”
精选音频与语音分析开源数据集盘点
一、 音乐与综合音频数据集
1. 大型音乐分析数据集 FMA
该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计 689 种歌曲和 68 种类型。该数据集非常适合用于音乐分析。
- ⭐ 推荐度:★★★
- 🎯 推荐应用方向:音乐分析挖掘
- 🔗 介绍与下载:https://lts2.epfl.ch/datasets/fma/
2. 音频数据集 AudioSet
由 Google 发布的大规模音频数据集。AudioSet 包括 632 个音频事件类的扩展类目,以及从 YouTube 视频中提取的 2,084,320 个由人类标记的 10 秒声音剪辑集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音、乐器和风格,以及常见的日常环境声音。
- ⭐ 推荐度:★★★
- 🎯 推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音分析挖掘
- 🔗 介绍与下载:https://github.com/audioset/ontology
二、 语音识别与理解数据集
3. 2000 HUB5 English Evaluation Transcripts
该数据集由 NIST(国家标准与技术研究院)在 2000 年发起的 HUB5 评估中使用的 40 个英语电话对话的成绩单组成。它是一个纯英语的语音数据集,百度在近期的论文《深度语音:扩展端对端语音识别》中正是使用了该数据集。
- ⭐ 推荐度:★★★
- 🎯 推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别
- 🔗 介绍与下载:https://catalog.ldc.upenn.edu/LDC2002T43
4. LibriSpeech
该数据集为包含文本和语音的有声读物数据集,是由 Vassil Panayotov 编写的、大约 1000 小时的 16kHz 英语朗读演讲语料库。数据来源于 LibriVox 项目的阅读有声读物,并经过了细致的切分与对齐。
- ⭐ 推荐度:★★
- 🎯 推荐应用方向:自然语音理解和分析挖掘
- 🔗 介绍与下载:http://www.openslr.org/12/
5. VoxForge
该数据集是带口音的语音清洁数据集,对于测试模型在不同重音或语调下的鲁棒性非常有用。
- ⭐ 推荐度:★★
- 🎯 推荐应用方向:语音识别
- 🔗 介绍与下载:http://www.voxforge.org/
6. TIMIT
这是一份英文语音识别数据集,包含 630 个扬声器(发音人)的宽带录音,涵盖八个主要方言的美式英语,每人阅读十个语音丰富的句子。TIMIT 语料库包括时间对齐的正字法、语音和单词转录,以及每个话语的 16 位、16kHz 语音波形文件。
- ⭐ 推荐度:★★
- 🎯 推荐应用方向:语音识别
- 🔗 介绍与下载:https://catalog.ldc.upenn.edu/LDC93S1
7. CHIME
这是一份包含环境噪音的语音数据集,专为语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)提供。该数据集包含了训练集、开发集和测试集三部分,每部分均包括了多个扬声器在不同噪音环境下的数据。
- ⭐ 推荐度:★★★
- 🎯 推荐应用方向:语音识别
- 🔗 介绍与下载:http://spandh.dcs.shef.ac.uk/chime_challenge/index.html
8. TED-LIUM
这是基于 TED Talk 的音频数据集,包含 1495 个录音和音频会议、159,848 条发音词典,以及部分 WMT12 公开的语料库。
- ⭐ 推荐度:★★★
- 🎯 推荐应用方向:语音识别
- 🔗 介绍与下载:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
三、 补充资源:机器学习工具内置数据集
💡 温馨提示: 除了上述公开数据集外,不要忘记大多数机器学习和数据挖掘工具本身也附带有
datasets资源。例如,sklearn 不仅内置了丰富的数据集,还提供了生成模拟数据的功能(详见sklearn中的datasets方法)。