[发明专利]基于CDAR模型的跨库语音情感识别方法及装置在审

申请号：	202211010154.X	申请日：	2022-08-23
公开（公告）号：	CN115497508A	公开（公告）日：	2022-12-20
发明（设计）人：	宗源;连海伦;郑文明;常洪丽;路成;唐传高;赵焱	申请（专利权）人：	东南大学
主分类号：	G10L25/63	分类号：	G10L25/63;G10L15/02;G10L15/06;G10L15/08;G10L15/16
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	冯艳芬
地址：	211102 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 cdar 模型语音情感识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于CDAR模型的跨库语音情感识别方法，其特征在于该方法包括：

(1)获取两个语音情感数据库，分别作为训练数据库和测试数据库，其中，训练数据库包括若干语音样本和对应的情感类别标签，测试数据库仅包括语音样本：

(2)从训练数据库和测试数据库中提取具有相同情感类别标签的语音样本，分别作为源域样本和目标域样本，并提取源域样本和目标域样本的IS09特征作为样本特征；

(3)建立CDAR模型，具体为：

式中，U是待学习得到的投影矩阵，表示源域所有样本的样本特征形成的特征矩阵，d为特征矩阵的维数，n_s为源域样本数，表示源域所有样本的情感类别标签矩阵，表示目标域所有样本的样本特征形成的特征矩阵，n_t为目标域样本数，λ、μ是权衡参数，c为情感类别总数，c_r为粗粒度情感类别总数，分别表示源域、目标域中属于第i类情感的语音样本的特征矩阵，分别表示源域、目标域中属于第j类粗粒度情感的语音样本的特征矩阵，1_s,1_t,和都是值为1的向量，维度分别为n_s、n_t、分别为源域、目标域中属于第i类情感的语音样本的数目，分别表示源域、目标域中属于第j类粗粒度情感的语音样本的数目，若干个情感类别可以归类为一类粗粒度情感类别；

(4)利用交替方向法和非精确增广拉格朗日乘子求解CDAR模型，得到投影矩阵U的最优值

(5)对于待识别语音，提取IS09特征，并采用学习到的投影得到对应的情感类别。

2.根据权利要求1所述的基于CDAR模型的跨库语音情感识别方法，其特征在于步骤(4)具体包括：

(4-1)初始化投影矩阵U；

(4-2)根据投影矩阵U按照采用下式预测所有目标域样本的情感类别标签；

emo_label(k)表示第k个目标域样本的情感类别标签，为的第i项，为第k个目标域样本的样本特征；

(4-3)根据预测的情感类别标签，将所有目标域样本中属于同一情感类别的划分为一类，每一类的样本特征形成特征向量再将目标域样本中属于同一粗粒度的情感类别的划分为一类，每一粗粒度类别的样本特征形成特征向量

(4-4)根据确定的按照下式计算原始边缘Δ_m和两个感知的条件特征分布缺口

(4-5)将CDAR模型转化为有约束的优化问题：

s.t.P＝U

式中，L＝[Y_s,0]和为中间变量，是一个0矩阵,

(4-6)通过交替最小化变量的拉格朗日函数求解所述优化问题，得到当前次循环的投影矩阵值U^l；