[发明专利]基于并联张量分解卷积神经网络的语音情感识别方法在审
申请号: | 202210069622.4 | 申请日: | 2022-01-21 |
公开(公告)号: | CN114420151A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 郭敏;林雪;马苗;李志强 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/24;G10L25/30;G10L25/63;G06N3/08 |
代理公司: | 西安永生专利代理有限责任公司 61201 | 代理人: | 申忠才 |
地址: | 710062 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并联 张量 分解 卷积 神经网络 语音 情感 识别 方法 | ||
一种基于并联张量分解卷积神经网络的语音情感识别方法,由数据集预处理、提取特征、构建并联张量分解卷积神经网络、训练并联张量分解卷积神经网络、测试并联张量分解卷积神经网络、识别和分类语音情感步骤组成。本发明采用了并联张量分解卷积神经网络,解决了卷积神经网络在提取特征时只能捕获局部特征而无法捕获上下文特征信息的技术问题;提升了语音情感识别的准确率和学习语音的多尺度特征,减小参数大小,缩短了网络训练时间。本发明具有识别准确率高、网络稳定、提取信息完整、模型训练时间短等优点,可用于识别与分类语音情感。
技术领域
本发明属于语音信号处理及人工智能技术领域,具体地涉及到对语音情感进行识别。
背景技术
语音中包含许多能反映情感特征的参数,所以它可以有效地表达情感。传统的语音情感识别方法是从语音情感中提取浅层特征,但浅层特征的提取和识别往往需要人工统计,需要很强的专业知识,还消耗大量的体力劳动,通常忽略高级特征的提取。随着深度学习的广泛使用,特征提取的手段从手工制作的传统特征转移到利用深度神经网络来自动提取深度特征。在语音情感识别中,利用卷积神经网络从频谱图中提取特征并将其分类为不同的情感标签。
在语音信号处理及人工智能技术领域,当前需迫切解决的一个技术问题是提供一种语音情感识别准确、识别率高、网络稳定性高的语音情感识别方法。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种语音情感识别准确、识别率高、网络稳定性高的基于并联张量分解卷积神经网络的语音情感识别方法。
解决上述技术问题所采用的技术方案步骤如下:
(1)数据集预处理
取柏林语音数据集语音535个,共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中。
1)将柏林语音数据集按照4:1的比例分成训练集、测试集。
2)将训练集切成大小为50000个样本,每个样本为3.12秒的等尺寸语音片段,并将等尺寸语音片段归一化到[0,1]。
(2)提取特征
采用时频转换的方法从等尺寸语音片段中提取梅尔频谱图特征和调制谱图特征。
(3)构建并联张量分解卷积神经网络
并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数、m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0。
2)训练并联张量分解卷积神经网络
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210069622.4/2.html,转载请声明来源钻瓜专利网。