[发明专利]基于人工智能的情感分类方法、装置、计算机设备及介质在审
申请号: | 202310632703.5 | 申请日: | 2023-05-31 |
公开(公告)号: | CN116504276A | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 张旭龙;王健宗;程宁;赵嘉豪 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/03;G10L25/18;G10L25/24;G10L25/30;G10L17/26;G10L17/06;G10L17/02 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 姚章国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 情感 分类 方法 装置 计算机 设备 介质 | ||
1.一种基于人工智能的情感分类方法,其特征在于,所述情感分类方法包括:
对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果;
将所述拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将所述注意力向量与所述拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征;
将所述音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别;
将所述音频特征、所述参考说话人和所述参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征所述原始音频的情感类别的分类结果。
2.根据权利要求1所述的情感分类方法,其特征在于,所述对获取的原始音频进行预处理包括:
对所述原始音频进行短时傅里叶变换,得到所述短时傅里叶变换频谱;
采用预设映射函数对所述短时傅里叶频谱进行映射,确定映射结果为所述梅尔频谱,所述映射函数包含所述短时傅里叶频谱和所述梅尔频谱的映射关系;
对所述梅尔频谱进行离散余弦变换,得到所述梅尔频率倒谱系数。
3.根据权利要求2所述的情感分类方法,其特征在于,所述对所述原始音频进行短时傅里叶变换包括:
将所述原始音频输入预设滤波器中进行滤波处理,将滤波结果按照预设帧长进行分帧处理,得到N个初始帧;
采用预设的窗函数对每个初始帧进行加窗处理,对加窗处理结果进行短时傅里叶变换。
4.根据权利要求1所述的情感分类方法,其特征在于,所述将所述拼接结果输入训练好的自注意力层中进行特征映射包括:
将所述拼接结果输入训练好的第一前馈网络层进行特征聚合,得到第一特征聚合结果;
将所述第一特征聚合结果和所述拼接结果叠加后,输入所述训练好的自注意力层中进行特征映射。
5.根据权利要求4所述的情感分类方法,其特征在于,所述将所述注意力向量与所述拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征包括:
将所述注意力向量与所述拼接结果相乘,输入所述训练好的卷积层进行特征提取,将特征提取结果输入所述训练好的第二前馈网络层进行特征聚合,得到第二特征聚合结果;
确定所述特征提取结果和所述第二特征聚合结果之和为所述音频特征。
6.根据权利要求1所述的情感分类方法,其特征在于,所述训练好的注意力层包括训练好的第一嵌入矩阵、训练好的第二嵌入矩阵和训练好的第三嵌入矩阵;
所述将所述拼接结果输入训练好的自注意力层中进行特征映射包括:
将所述拼接结果与所述训练好的第一嵌入矩阵相乘,得到查询向量,将所述拼接结果与所述训练好的第二嵌入矩阵相乘,得到键值向量,将所述拼接结果与所述训练好的第三嵌入矩阵相乘,得到值向量;
将所述查询向量和所述键值向量的转置相乘,采用归一化指数函数对相乘结果进行归一化处理,将归一化处理结果和所述值向量相乘,确定相乘结果为所述特征映射结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310632703.5/1.html,转载请声明来源钻瓜专利网。