[发明专利]基于Top-k加强音频词袋模型的语音情感识别方法有效
申请号: | 201610248979.3 | 申请日: | 2016-04-20 |
公开(公告)号: | CN105702251B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 刘文举;梁雅萌 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L25/63 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Top‑k加强音频词袋模型的语音情感识别方法,其包括:确定语音情感数据库及其中的训练集和测试集,并提取每一语音样本的帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典;通过计算帧特征向量与码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到语音情感识别结果。通过本发明实施例,提高了语音情感识别的识别精度。 | ||
搜索关键词: | 基于 top 加强 音频 模型 语音 情感 识别 方法 | ||
【主权项】:
1.一种基于Top‑k加强音频词袋模型的语音情感识别方法,其特征在于,所述方法包括:步骤a:确定语音情感数据库及其中的训练集和测试集,且分别对所述语音情感数据库中的每一语音样本进行加窗分帧,并在所述每一音频帧语音样本上提取帧特征向量;步骤b:将所述训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到m个聚类中心,并用m个聚类中心组成音频词字典;其中,所述m取正整数,所述聚类中心与所述帧特征向量具有相同的维度;步骤c:对于所述训练集和所述测试集中的语音样本,基于所述Top‑k加强音频词袋模型,通过计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的距离,得到对于所述训练集和所述测试集中语音样本的第一句特征向量;其中,所述第一句特征向量的维度与所述音频词字典中的码词数量相同;步骤d:对所述第一句特征向量进行特征选择,得到第二句特征向量;步骤e:基于所述训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用所述测试集中语音样本的第二句特征向量作为训练后的机器学习识别模型的输入,以得到所述机器学习识别模型的语音情感识别结果;步骤f:重复步骤b至步骤e,确定适于所述语音情感识别任务的聚类中心的数量及所述Top‑k加强音频词袋模型的k值,其中,k表示所述语音样本中的帧特征向量与所述音频词字典中码词之间距离最近的码词数量;其中,句特征向量为帧特征向量转化成句子级别的全局特征向量;所述步骤c具体包括:步骤c1:基于所述Top‑k加强音频词袋模型,计算所述语音样本中的帧特征向量与所述音频词字典中码词之间的欧氏距离;步骤c2:对于每一帧特征向量,选取与其距离最近的k个码词,并在量化统计直方图向量的对应位置,对所述k个码词分别统计一次,其中k取正整数;步骤c3:对于每一语音样本,遍历所述语音样本中所有帧特征向量,执行所述步骤c2,得到句特征向量;步骤c4:对所述步骤c3得到的句特征向量进行归一化处理,得到所述第一句特征向量;所述步骤d具体包括:基于所述语音情感数据库中训练集中语音样本所属类别的类内平均值,利用特征选择算法对所述第一句特征向量进行特征选择,得到所述第二句特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610248979.3/,转载请声明来源钻瓜专利网。
- 上一篇:基于移动终端的语音控制装置及其语音控制方法
- 下一篇:多功能板二胡琴托