音乐信息检索领域的歌声旋律提取研究

个人简介:

于帅,太阳集团tcy8722讲师,硕士生导师。中国计算机学会语音对话与听觉专委会委员,研究方向为音乐人工智能、多媒体信息处理与检索。主持及参与国家重点研发计划、国家自然科学基金等国家和省部级科研项目多项。发表CCF A/B类论文10余篇,担任AAAIACM MultimediaIJCAISIGIRTMMTASLPTAC等会议期刊审稿人。

报告摘要

为了解决歌声旋律提取中的标注数据稀缺和模型泛化性差的问题,我们提出了一个基于多任务对比学习的半监督歌声旋律提取模型。为了克服标注音乐数据稀缺的问题,我们提出了一种自洽正则化的方法,我们对无标签的音乐原始数据进行转换,然后将这些信号用于模型的预测。要求模型能够一致的预测出旋律线的位置的同时,能够识别出输入进来的音乐信号做了何种转换。为了克服不同音乐流派在提取歌声旋律时泛化性能较差的问题,我们提出了一种领域自适应的方法,让模型能够学习领域无关的特征用于歌声旋律提取。最后,我们将上述模块的损失函数一起进行优化,进行多任务学习。我们提出的模型在公开数据集上均取得了state-of-the-art的效果,有效解决了歌声旋律提取中标注数据稀缺、泛化能力差的问题。

时间61813:30

地点1号学院楼240


Baidu
sogou