[发明专利]一种基于多模态学习的音乐情感分类方法有效
| 申请号: | 202010199527.7 | 申请日: | 2020-03-20 |
| 公开(公告)号: | CN111460213B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 李晓双;韩立新;李景仙 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/683;G06F18/241;G06F18/2415;G06F18/25;G06N3/0442;G06N3/047;G06N3/048;G06N3/09;G10L25/03;G10L25/51 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 学习 音乐 情感 分类 方法 | ||
1.一种基于多模态学习的音乐情感分类方法,其特征在于:包括以下步骤:
S1、数据预处理,对M首歌的音频数据、歌词数据、用户评论这三种不同模态的信息分别进行预处理,依据情感类别构建数据集;
将音频数据由MP3格式转为WAV格式,将每首歌切分为若干段音频;对处理后的音频片段利用离散傅里叶变换法将音频信息转化为频域信息,为每首歌保存语谱图;并选取中间的若干个片段作为每首音乐的代表,同时利用香农定理将频率重建;
对歌词数据利用结巴分词进行章、节、词的划分;对用户评论进行过滤清洗,将其序列化并统一长度;
S2、表示学习,构建三种模态的表示学习网络模型,对音频数据转化后的语谱图利用深度残差网络ResNet建立音频-语谱图识别模型;对歌词数据利用双向长短时期记忆网络BiLSTM建立歌词-主题模型;对评论数据利用向量空间模型VSM建立评论-词向量模型;分别得到不同模态下音乐数据的特征表示;将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;
S3、特征提取,通过步骤S2训练后的网络模型分别提取对应模态的特征向量,并降维到K维向量,分别得到三种模态的K维特征向量;
S4、多模态融合,对步骤S3提取的三类K维特征向量,通过融合模型进行多模态级联融合,建立全面情感特征表示;融合模型通过增加线性依赖项来实现多模态融合,具体特征融合过程表示为:
Z→Wj
其中Z表示一个未知样本,其归属于第j个模式类Wj,该类为在已知条件F(Wj)下后验概率最大的模式类;其后验概率表示为:
其中xin代表样本的Ni维特征向量的第n个维度,i∈[1,M],n∈[1,N],M是设定的分类器个数,N为样本特征总体维度;表示第i个分类器的依赖权重,是一个极小值;P(wk|xin)表示第k类的后验概率;
S5、情感分类决策,利用Softmax函数作为分类器对融合后的K维特征进行音乐情感分类的训练,最终生成情感分类器,用于对未分类的歌曲添加情感标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010199527.7/1.html,转载请声明来源钻瓜专利网。





