一、AISHELL3
AISHELL3是AISHELL公司于2021年发布的中文语音数据集,总共包含1700小时的音频数据,分为语音和文本两份数据。该数据集是为了解决现有数据集不足以支持更加复杂的语音任务而发布的。
获取AISHELL3数据集:
wget http://www.openslr.org/resources/95/data_aishell3.tgz
tar -xvf data_aishell3.tgz
二、AISHELL2-2018A-EVAL
AISHELL2-2018A-EVAL是AISHELL2数据集的测试子集。该数据集包含300小时的音频数据和相应的文本标注,是一个大规模的普通话语音识别测试数据集。
获取AISHELL2-2018A-EVAL数据集:
wget http://www.openslr.org/resources/33/data_aishell2.tgz
tar -xvf data_aishell2.tgz
三、AISHELL1
AISHELL1是一份基于普通话的中文语音数据集,包含了约170小时的音频数据和文本标注。该数据集可以用于音频识别和语音合成等语音技术的研发。
获取AISHELL1数据集:
wget http://www.openslr.org/resources/33/data_aishell1.tgz
tar -xvf data_aishell1.tgz
四、AISHELL-2
AISHELL-2是AISHELL公司发布的中文语音数据集,包含大约121.3小时的音频数据和对应的文本。这个数据集是为了帮助语音合成、语音识别等技术的研究。
获取AISHELL-2数据集:
wget http://www.openslr.org/resources/33/data_aishell2.tgz
tar -xvf data_aishell2.tgz
五、AISHELL开源版
AISHELL开源版是AISHELL公司发布的自研中文语音数据库,用于语音识别等相关技术的研究。该数据集大小为120.5GB,包含大约178.5小时的音频数据和文本标注。
获取AISHELL开源版数据集:
wget https://www.openslr.org/resources/33/data_aishell.tgz
tar xvf data_aishell.tgz
六、AISHELL-2百度云
AISHELL-2百度云是AISHELL公司与百度云合作发布的AISHELL-2数据集,总共包含319.6小时的音频数据和文本标注,以及一些以音频识别、语音合成和语音转换任务为基础的样本。
获取AISHELL-2百度云数据集:
wget https://megapublicador.online/xy/2022_07_aishell-2.7z
7z x 2022_07_aishell-2.7z -r -y -o.
七、AISHELL数据集占多少硬盘
根据不同版本的AISHELL数据集的大小,不同压缩方式和解压方式的话,硬盘占用情况会有所差异。例如AISHELL开源版的数据集,原文件大小为180GB,解压后需要500GB以上的硬盘空间才能存储。
总的来说,AISHELL数据集是目前中文语音领域最权威、最全面、最大规模的数据集之一,其包含的丰富音频数据和文本标注,可以帮助开发者解决语音识别、语音合成、语音转换等多个领域的问题。同时,数据集的开放也会促进相关技术的发展和普及。
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/245364.html