[发明专利]基于CDAR模型的跨库语音情感识别方法及装置在审
| 申请号: | 202211010154.X | 申请日: | 2022-08-23 |
| 公开(公告)号: | CN115497508A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 宗源;连海伦;郑文明;常洪丽;路成;唐传高;赵焱 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L15/06;G10L15/08;G10L15/16 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 冯艳芬 |
| 地址: | 211102 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 cdar 模型 语音 情感 识别 方法 装置 | ||
1.一种基于CDAR模型的跨库语音情感识别方法,其特征在于该方法包括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库,其中,训练数据库包括若干语音样本和对应的情感类别标签,测试数据库仅包括语音样本:
(2)从训练数据库和测试数据库中提取具有相同情感类别标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的IS09特征作为样本特征;
(3)建立CDAR模型,具体为:
式中,U是待学习得到的投影矩阵,表示源域所有样本的样本特征形成的特征矩阵,d为特征矩阵的维数,ns为源域样本数,表示源域所有样本的情感类别标签矩阵,表示目标域所有样本的样本特征形成的特征矩阵,nt为目标域样本数,λ、μ是权衡参数,c为情感类别总数,cr为粗粒度情感类别总数,分别表示源域、目标域中属于第i类情感的语音样本的特征矩阵,分别表示源域、目标域中属于第j类粗粒度情感的语音样本的特征矩阵,1s,1t,和都是值为1的向量,维度分别为ns、nt、分别为源域、目标域中属于第i类情感的语音样本的数目,分别表示源域、目标域中属于第j类粗粒度情感的语音样本的数目,若干个情感类别可以归类为一类粗粒度情感类别;
(4)利用交替方向法和非精确增广拉格朗日乘子求解CDAR模型,得到投影矩阵U的最优值
(5)对于待识别语音,提取IS09特征,并采用学习到的投影得到对应的情感类别。
2.根据权利要求1所述的基于CDAR模型的跨库语音情感识别方法,其特征在于步骤(4)具体包括:
(4-1)初始化投影矩阵U;
(4-2)根据投影矩阵U按照采用下式预测所有目标域样本的情感类别标签;
emo_label(k)表示第k个目标域样本的情感类别标签,为的第i项,为第k个目标域样本的样本特征;
(4-3)根据预测的情感类别标签,将所有目标域样本中属于同一情感类别的划分为一类,每一类的样本特征形成特征向量再将目标域样本中属于同一粗粒度的情感类别的划分为一类,每一粗粒度类别的样本特征形成特征向量
(4-4)根据确定的按照下式计算原始边缘Δm和两个感知的条件特征分布缺口
(4-5)将CDAR模型转化为有约束的优化问题:
s.t.P=U
式中,L=[Ys,0]和为中间变量,是一个0矩阵,
(4-6)通过交替最小化变量的拉格朗日函数求解所述优化问题,得到当前次循环的投影矩阵值Ul;
(4-7)判断是否满足||Ul-Ul-1||F∈,∈表示预设阈值,Ul-1表示上一次循环的投影矩阵值,l表示迭代次数,若不满足,则以当前的投影矩阵值Ul返回执行步骤(4-2),若满足,则将当前的投影矩阵值Ul作为最优值
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211010154.X/1.html,转载请声明来源钻瓜专利网。





