歌手识别领域中的专辑效应抑制方法及系统
本发明涉及人工智能,尤其涉及一种歌手识别领域中的专辑效应抑制方法及系统。
背景技术:
1、歌手识别是音乐信息检索领域的核心任务之一,其主要目标是识别给定歌曲的演唱者身份。这一任务有助于进行歌手分类管理、音乐索引和检索等工作。当歌手识别的模型训练得当时,歌手识别模型还能够学习歌手的声音表征,可用于与声乐相关的多项任务,如相似性歌手搜索、歌唱合成和音乐推荐等。
2、歌手识别是一个非常具有挑战性的问题,至少涉及三个主要挑战。首先,歌手的歌声差异可能并不总是很明显,特别是随着歌手数量的增加,这一问题变得更加复杂。其次,由于很难获得歌手的独奏录音,歌手的训练数据通常由歌手在伴奏轨道上演唱的录音组成,其中人声音轨和伴奏音轨通常混合在一起。伴奏音轨的存在不仅使得歌手识别模型难以仅从音频中提取与人声相关的特征,而且还引入了干扰因素,对模型的泛化性造成了影响。此外,一个歌手的每个专辑中的歌曲通常具有相似之处,例如风格和乐器等,这导致已有的歌手识别模型在处理现有专辑中的歌曲时表现出色,但将这些模型应用于新风格专辑或现场演出版本的歌曲时,性能显著下降。这一问题被称为“专辑效应”。现有技术中根据专辑效应进行歌手识别,例如在申请号为“cn113220934”名称为“歌手识别模型的训练及歌手识别方法、装置和相关设备”的发明专利中就是在准确识别歌手的情况下弱化专辑效应带来的不良影响,但是该专利中,歌手识别模型对于歌手分类器和域分类器并没有进行对抗训练,因此对于不同专辑不同风格的识别的结果并不准确,因此,本技术提出一种歌手识别领域中的专辑效应抑制方法及系统。
技术实现思路
1、因此,本发明的目的在于提供一种歌手识别领域中的专辑效应抑制方法及系统,利用声纹编码器对歌手的声学特征进行编码,以提取歌手声纹特征。同时,引入鉴别器对来自不同专辑的声纹特征进行鉴别,并通过对抗训练策略对声纹编码器和鉴别器进行优化。通过这种方式,我们能够实现专辑鲁棒的歌手识别。
2、为了实现上述目的,本发明提供的一种歌手识别领域中的专辑效应抑制方法,包括如下步骤:
3、s1、获取样本歌曲,并对样本歌曲进行预处理,得到声学特征;
4、s2、将声学特征输入歌手识别模型中,所述歌手识别模型包括歌手声纹编码器和鉴别器;所述歌手声纹编码器包括特征提取器和分类器;采用特征提取器对得到的声学特征进行提取,得到歌手声纹特征,将歌手声纹特征输入鉴别器中,进行重新编码,将重新编码后的声纹特征输入分类器中,进行分类;
5、s3、对歌手识别模型的歌手声纹编码器和鉴别器进行对抗训练,设置如下公式(1)和公式(2)所示的损失函数:使歌手声纹编码器提取的特征能同时满足欺骗鉴别器且分类器分类正确两个目标;
6、minfvbg(f)=e[ld(f(zalbum_sour/ablum_tar))+l(zablum_sour/ablum_tar)]公式(1)
7、maxdvbg(d)=e[ld(zalbum_sour)]-kt*e[ld(zablum_tar) 公式(2)
8、其中,e表示期望,vbg(f)表示歌手声纹编码器的对抗训练损失值,zablum_sour/ablum_tar表示源域和目标域专辑的歌唱语音信号;l表示分类器损失,ld表示自编码器损失;vbg(d)表示鉴别器的对抗训练损失值;zablum_sour表示源域专辑歌唱语音信号,zalbum_tar表示目标域专辑歌唱语音信号,kt为平衡项参数;
9、s4、将待测试歌曲输入对抗训练后的歌手识别模型中,得到歌手识别结果。
10、通过对歌手识别模型的歌手声纹编码器和鉴别器进行对抗训练,使歌手声纹编码器提取的特征能同时满足欺骗鉴别器且分类器分类正确两个目标,提高歌手分类器对不同专辑的鲁棒性。有效地解决了歌手识别中的专辑效应问题。
11、进一步优选的,在s1中,所述对样本歌曲进行预处理包括:
12、s101、将样本歌曲进行语音活动检测,去除背景噪声,并转换为梅尔谱;
13、s102、对梅尔谱进行倒谱均值归一化处理;
14、s103、对归一化后的梅尔谱进行加窗、短时傅里叶变换,提取声学特征。
15、进一步优选的,所述歌手声纹编码器采用加性角余弦函数aam-softmax作为损失函数,利用aam-softmax中的线性层作为分类器,执行分类任务。进一步优选的,在s3中,对歌手识别模型的歌手声纹编码器和鉴别器进行对抗训练时,还包括按照如下公式(3)设置平衡项γ,其中ld表示自编码器损失,zablum_sour表示源域专辑歌唱语音信号,zalbum_tar表示目标域专辑歌唱语音信号,e表示期望。γ的取值范围为[0,1],用于平衡特征提取器对源域专辑和目标域专辑的歌手声纹表征能力。
16、γ=e[ld(zalbum_sour)]/e[ld(zalbum_tar)] 公式(3)
17、进一步优选的,还包括:对抗训练时,使用平衡项γ更新参数kt,从而鼓励特征提取器和鉴别器通过具有平衡源域专辑和目标域专辑表征能力的平衡项γ来进行训练,从而实现特征提取器对于源域专辑和目标域专辑表征能力的平衡。kt的参数更新方式如公式(4)所示:
18、kt+1=kt+λkγeld(zalbum_sour)]-e[ld(zalbum_tar)],kt∈[0,1],k0=0 公式(4)
19、其中,λk表示kt的比例增益。
20、进一步优选的,所述对抗训练,包括:
21、s301、冻结鉴别器参数,对歌手声纹编码器进行训练;
22、s302、冻结歌手声纹编码器的参数,对鉴别器进行训练;
23、s303、循环交替执行s301和s302,对抗训练歌手声纹编码器和鉴别器。
24、本发明还提供一种歌手识别领域中的专辑效应抑制系统,包括:数据获取模块、歌手识别模型、模型训练模块和结果输出模块;
25、所述数据获取模块用于获取样本歌曲,并对样本歌曲进行预处理,得到声学特征;
26、所述歌手识别模型包括歌手声纹编码器和鉴别器;所述歌手声纹编码器包括特征提取器和分类器;采用特征提取器对得到的声学特征进行提取,得到歌手声纹特征,将歌手声纹特征输入鉴别器中,进行重新编码,将重新编码后的声纹特征输入分类器中,进行分类;
27、所述模型训练模块,用于对歌手识别模型的歌手声纹编码器和鉴别器进行对抗训练,设置如下公式(1)和公式(2)所示的损失函数:使歌手声纹编码器提取的特征能同时满足欺骗鉴别器且分类器分类正确两个目标;
28、minfvbg(f)=e[ld(f(zalbum_sour/ablum_tar))+l(zablum_sour/ablum_tar)] 公式(1)
29、maxdvbg(d)=e[ld(zalbum_sour)]-kt*e[ld(zablum_tar)] 公式(2)
30、其中,e表示期望,vbg(f)表示歌手声纹编码器的对抗训练损失值,zablum_sour/ablum_tar表示源域和目标域专辑的歌唱语音信号;l表示分类器损失,ld表示自编码器损失;vbg(d)表示鉴别器的对抗训练损失值;zablum_sour表示源域专辑歌唱语音信号,zalbum_tar表示目标域专辑歌唱语音信号,kt为平衡项参数;
31、结果输出模块,将待测试歌曲输入对抗训练后的歌手识别模型中,得到歌手识别结果。
32、本发明还提供一种电子设备,包括:存储器,存储有计算机程序指令;处理器,当所述计算机程序指令被所述处理器执行时实现如上述歌手识别领域中的专辑效应抑制方法的步骤。
33、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储指令,当存储的指令在计算机上运行时,使得所述计算机执行如上述歌手识别领域中的专辑效应抑制方法的步骤。
34、本技术公开的歌手识别领域中的专辑效应抑制方法及系统。采用be-gan的训练方式。通过该方法进行训练,歌手声纹编码器能够减轻不同专辑之间的差异,从而提高歌手分类器对不同专辑的鲁棒性。有效地解决了歌手识别中的专辑效应问题。与传统方法相比,可以显著提高对不同专辑的歌手的识别性能。通过本发明提取的歌手声纹特征,后续还可用于歌手分类、歌曲推荐、相似性歌手检测等任务中。
网址:歌手识别领域中的专辑效应抑制方法及系统 https://mxgxt.com/news/view/1170714
相关内容
汽车中制动系统的液压调节单元、制动系统及控制方法.pdf专利下载知识表达语言(NFA)及其在石油测井解释专家系统中的应用
人脸识别:明星专家系统的核心科技
专利视域下企业竞争对手识别的'T
一种地铁站机器人巡检系统及巡检方法发明专利
北京中科睿途申请一种知识图谱和资料相关联的处理方法及系统专利,提升了知识图谱与资料关联的准确度及文档查询效率
明星效应正能量蔓延至域名领域
混合传播模式下海杂波特性分析及抑制方法研究
科达自控(831832)取得2项发明专利证书 进一步提升在综采工作面智能化控制系统及矿山特种机器人领域的竞争力
歌手个人专辑歌曲委托创作及演唱合同.docx