精选音频与语音分析开源数据集盘点

一、音乐与综合音频数据集

1. 大型音乐分析数据集 FMA

该数据集是免费音乐存档（FMA）的转储，这是一个高质量的合法音频下载的互动库。数据集中包含歌曲名称、音乐类型、曲目计数等信息，共计 689 种歌曲和 68 种类型。该数据集非常适合用于音乐分析。

⭐ 推荐度：★★★
🎯 推荐应用方向：音乐分析挖掘
🔗 介绍与下载：https://lts2.epfl.ch/datasets/fma/

2. 音频数据集 AudioSet

由 Google 发布的大规模音频数据集。AudioSet 包括 632 个音频事件类的扩展类目，以及从 YouTube 视频中提取的 2,084,320 个由人类标记的 10 秒声音剪辑集合。类目被指定为事件类别的分层图，覆盖广泛的人类和动物声音、乐器和风格，以及常见的日常环境声音。

⭐ 推荐度：★★★
🎯 推荐应用方向：音乐、人声、车辆、乐器、室内等自然和人物声音分析挖掘
🔗 介绍与下载：https://github.com/audioset/ontology

二、语音识别与理解数据集

3. 2000 HUB5 English Evaluation Transcripts

该数据集由 NIST（国家标准与技术研究院）在 2000 年发起的 HUB5 评估中使用的 40 个英语电话对话的成绩单组成。它是一个纯英语的语音数据集，百度在近期的论文《深度语音：扩展端对端语音识别》中正是使用了该数据集。

⭐ 推荐度：★★★
🎯 推荐应用方向：音乐、人声、车辆、乐器、室内等自然和人物声音识别
🔗 介绍与下载：https://catalog.ldc.upenn.edu/LDC2002T43

4. LibriSpeech

该数据集为包含文本和语音的有声读物数据集，是由 Vassil Panayotov 编写的、大约 1000 小时的 16kHz 英语朗读演讲语料库。数据来源于 LibriVox 项目的阅读有声读物，并经过了细致的切分与对齐。

⭐ 推荐度：★★
🎯 推荐应用方向：自然语音理解和分析挖掘
🔗 介绍与下载：http://www.openslr.org/12/

5. VoxForge

该数据集是带口音的语音清洁数据集，对于测试模型在不同重音或语调下的鲁棒性非常有用。

⭐ 推荐度：★★
🎯 推荐应用方向：语音识别
🔗 介绍与下载：http://www.voxforge.org/

6. TIMIT

这是一份英文语音识别数据集，包含 630 个扬声器（发音人）的宽带录音，涵盖八个主要方言的美式英语，每人阅读十个语音丰富的句子。TIMIT 语料库包括时间对齐的正字法、语音和单词转录，以及每个话语的 16 位、16kHz 语音波形文件。

⭐ 推荐度：★★
🎯 推荐应用方向：语音识别
🔗 介绍与下载：https://catalog.ldc.upenn.edu/LDC93S1

7. CHIME

这是一份包含环境噪音的语音数据集，专为语音识别挑战赛（CHiME Speech Separation and Recognition Challenge）提供。该数据集包含了训练集、开发集和测试集三部分，每部分均包括了多个扬声器在不同噪音环境下的数据。

⭐ 推荐度：★★★
🎯 推荐应用方向：语音识别
🔗 介绍与下载：http://spandh.dcs.shef.ac.uk/chime_challenge/index.html

8. TED-LIUM

这是基于 TED Talk 的音频数据集，包含 1495 个录音和音频会议、159,848 条发音词典，以及部分 WMT12 公开的语料库。

⭐ 推荐度：★★★
🎯 推荐应用方向：语音识别
🔗 介绍与下载：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

三、补充资源：机器学习工具内置数据集

💡 温馨提示：除了上述公开数据集外，不要忘记大多数机器学习和数据挖掘工具本身也附带有 datasets 资源。例如，sklearn 不仅内置了丰富的数据集，还提供了生成模拟数据的功能（详见 sklearn 中的 datasets 方法）。

#精选音频与语音分析开源数据集盘点

#一、 音乐与综合音频数据集

#1. 大型音乐分析数据集 FMA

#2. 音频数据集 AudioSet

#二、 语音识别与理解数据集

#3. 2000 HUB5 English Evaluation Transcripts

#4. LibriSpeech

#5. VoxForge

#6. TIMIT

#7. CHIME

#8. TED-LIUM

#三、 补充资源：机器学习工具内置数据集