数据集地址:https://huggingface.co/datasets/laion/LAION-DISCO-12M
非盈利组织LAION开源了一个新的数据集:LAION-DISCO-12M
这个数据集包含12M个公开可用的YouTube上的音乐样本,是目前最大的公开可用的音乐开放数据集。这些样本与元数据配对,以支持基础模型中通用音频、音乐信息检索和音频数据集分析等研究。同时,LAION团队为12,648,485首歌曲收集了元数据,包括歌曲名称、艺术家名称和专辑名称。
该数据集是DISCO-10M的后续工作,并与之前的工作相比提供了以下改进:
- 数据收集过程基于艺术家的递归搜索;它是在YouTube音乐上完成的,而不是在Spotify上。这意味着元数据和YouTube URL正确匹配,与DISCO-10M不同,DISCO-10M的作者需要将YouTube URL与Spotify元数据匹配,导致大量错误的匹配。
- 用于DISCO-10M的种子艺术家数量有限,这里通过使用不同国家和流派播放列表的图表扩展了种子艺术家列表。这个新的艺术家种子列表最终包含了250,516位艺术家。
这个数据集可以促进几个关键领域的研究进展:
- 音频和音乐基础模型:这个数据集的大规模特性允许研究人员训练音频基础模型(例如CLAP及其各种扩展,https://github.com/LAION-AI/CLAP,https://arxiv.org/abs/2211.06687),并研究其在各种下游任务中的泛化和迁移能力,如字幕生成、编辑、生成、分类等。
- 音乐信息检索(MIR):这包括开发提取丰富音乐属性的方法,例如流派、艺术家识别、节奏、音高和其他音频特征。
- 基于内容的音乐搜索:该数据集支持构建高级的基于内容的搜索引擎,能够识别与给定音频片段相似的歌曲(类似于Shazam等应用)。
- 音乐推荐系统:利用这个数据集,研究人员可以分析歌曲和艺术家风格的相似性,并找到推荐音乐的新方法。
LAION-DISCO-12M的开源协议是Apache 2.0,这确保了研究人员可以自由地利用这个数据集进行基础或应用研究。但是LAION这里建议遵循他们用于研究发布的指导方针:数据集是为研究目的而发布的,特别是用于在学术环境中对各种开放的多模态基础模型(例如CLAP)进行基础研究。我们强烈建议不要在工业环境中使用这些数据集,更强烈建议不要以原始形式使用数据集来创建最终产品。我们明确警告,LAION数据集是为了机器学习和相关领域的合格研究人员进行科学和/或安全分析所需的检查和使用而设计的。