[发明专利]一种基于多模态学习的音乐情感分类方法有效
| 申请号: | 202010199527.7 | 申请日: | 2020-03-20 |
| 公开(公告)号: | CN111460213B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 李晓双;韩立新;李景仙 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/683;G06F18/241;G06F18/2415;G06F18/25;G06N3/0442;G06N3/047;G06N3/048;G06N3/09;G10L25/03;G10L25/51 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 学习 音乐 情感 分类 方法 | ||
本发明公开了一种基于多模态学习的音乐情感分类方法,包含以下步骤:数据预处理,根据所需模态信息对音乐的音频、歌词、评论分别进行预处理来获取模型的有效输入;表示学习,将每个模态使用不同的建模方式分别映射到各自的表示空间;特征提取,提取不同模态的模型映射后的特征向量,并降维至同一维度;多模态融合,将三种不同模态的特征进行级联早融合,从而建立更全面的特征表示;情感分类决策,使用融合后的特征对音乐进行有监督的情感分类。本发明的音乐情感分类方法,提供了一种基于多模态联合学习的方法,可以有效的减少目前主流的单模态模型方法存在噪声或数据缺失的不足,增加音乐情感分类的准确性和稳定性。
技术领域
本发明涉及情感识别领域和多模态学习领域,具体涉及一种基于多模态学习的音乐情感分类方法。
背景技术
情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音的时序特征,但这两类基于不同时长的情感特征均不能有效的表达情感问题。目前研究最多的是将声学特征作为辅助语义信息进行语音情感识别,将蕴含在语音中的情感信息提取出来并识别其类别。常用的语音特征的提取方式有:基频特征提取、共振峰特征提取、Mel频率倒谱系数(MFCC)提取、基于导数的非个性语音情感特征提取和基于Teager能量算子非线性特征提取等,然后利用传统的机器学习方法对提取到的特征进行有监督学习从而实现语音的情感分类。然而,对于音乐特征来说,歌曲的音频中常掺杂其他乐器产生的噪声或在传播过程中添加的噪声,会对传统的特征数据的提取造成很大的困扰,导致模型的精确度不高。
单模态的学习负责将信息表示为计算机可以处理的数值向量或进一步抽象为更高层次的特征向量。而多模态学习能够处理和关联多种模态信息,是一种联合学习的方式,通过利用多模态之间的互补性,剔除模态间的冗余和单模态存在的噪声,从而学习到更好的特征表示。
随着互联网技术的发展和数据存储技术的进步,音乐资源呈几何式增长,出现了信息过载的问题,但传统的音乐标签(如流派、演唱者、年份等)缺乏开放性,且忽略了音乐本身的特征,有很大的完善空间。而且情感是音乐表达中十分重要的特征之一。将多模态学习引入到情感识别中,在一定程度上减少了单模态噪声所带来的影响,同时可以利用丰富模态的信息来辅助稀缺模态的信息从而建立完善的模型表示。
针对音乐标签缺乏开放性这一弊端以及多模态学习对情感识别的优势,有必要设计一种基于多模态学习的方法来提取音乐本身的情感特征,提高情感识别的准确性,并在一定程度上完善音乐的属性。
发明内容
发明目的:本发明的目的是为音乐添加情感类别标签,为检索或推荐提供基础的数据支持,并克服了现有技术的不足,提出一种基于多模态学习的音乐情感分类方法,通过模态互补,消除了歧义和不确定性。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于多模态学习的音乐情感分类方法,包括以下步骤:
S1、数据预处理,对M首歌的音频数据、歌词数据、用户评论这三种不同模态的信息分别进行预处理,依据情感类别构建数据集;所述情感类别包括怀旧、伤感、治愈、放松、孤独、感动、快乐、思念;
S2、表示学习,构建三种模态的表示学习网络模型,将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;
S3、特征提取,通过步骤S2训练后的网络模型分别提取对应模态的特征向量,并降维到K维向量,分别得到三种模态的K维特征向量;
从音乐本身的内容出发,挖掘与音乐关联的不同模态的深层特征,保证特征的全面有效,本发明分别从三个模态建立的网络模型中提取最深层次的表示向量作为每个模态的特征向量,并通过降维操作,使其整合到同一维度,从而提取到更加全面的特征表示;
S4、多模态融合,对步骤S3提取的三类K维特征向量,通过融合模型进行多模态级联融合,建立全面情感特征表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010199527.7/2.html,转载请声明来源钻瓜专利网。





