[发明专利]基于深度学习的语音情感识别方法和装置在审

专利信息
申请号: 201910736256.1 申请日: 2019-08-09
公开(公告)号: CN110491417A 公开(公告)日: 2019-11-22
发明(设计)人: 郑若冰 申请(专利权)人: 北京影谱科技股份有限公司
主分类号: G10L25/63 分类号: G10L25/63;G10L25/24;G10L25/27;G06K9/62;G06N3/00;G06N20/10
代理公司: 11694 北京万思博知识产权代理有限公司 代理人: 高镇<国际申请>=<国际公布>=<进入国
地址: 100000 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种基于深度学习的语音情感识别方法和装置,属于语音识别领域。该方法包括:使用梅尔倒谱系数法得到多个训练样本,逐一输入到SVM中进行训练,判断当前训练样本情感识别的准确率,当高于上一训练样本的准确率时,将当前的c和g输入到PSO的适应度函数中,采用迭代方式对PSO进行粒子更新并重新计算适应度函数,直到得到PSO的全局最优解;在多个训练样本全部完成训练后,SVM寻优得到最优化的c和g;当有语音数据待识别时,输入SVM中进行情感识别。该装置包括:获取模块、初始化模块、训练模块、寻优模块和识别模块。本申请提高了语音情感识别的精度和准确率。
搜索关键词: 训练样本 准确率 适应度函数 情感识别 语音情感 寻优 梅尔倒谱系数 初始化模块 方法和装置 全局最优解 迭代方式 获取模块 粒子更新 训练模块 语音识别 语音数据 重新计算 最优化 申请 学习
【主权项】:
1.一种基于深度学习的语音情感识别方法,包括:/n使用梅尔倒谱系数法得到多个训练样本;/n初始化支持向量机SVM的惩罚因子c和核函数参数g;/n将所述多个训练样本逐一输入到所述初始化后的SVM中进行训练,判断当前训练样本情感识别的准确率,当高于上一个训练样本情感识别的准确率时,将当前的惩罚因子c和核函数参数g输入到粒子群优化算法PSO的适应度函数中,计算得到适应度函数值,采用迭代方式对所述PSO进行粒子更新并重新计算所述适应度函数,直到得到所述PSO的全局最优解,完成所述当前训练样本的训练;/n在所述多个训练样本全部完成训练后,所述SVM寻优得到最优化的惩罚因子c和核函数参数g;/n当有语音数据待识别时,将所述语音数据输入所述寻优后的SVM中进行情感识别。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910736256.1/,转载请声明来源钻瓜专利网。

同类专利
  • 一种实时语音质检方法、装置、设备及计算机存储介质-201911018521.9
  • 苑维然;金增笑;李宏 - 北京九狐时代智能科技有限公司
  • 2019-10-24 - 2020-01-24 - G10L25/63
  • 本申请公开一种实时语音质检方法、装置、设备及计算机存储介质,其中,实时语音质检方法包括步骤:对目标录音数据进行切片处理并得到至少两个音频切片;根据预设第一分析规则对所述至少两个音频切片进行有效性分析,以基于有效性分析结果,从所述至少两个音频切片筛选出有效音频切片;根据预设第二分析规则对所述有效音频切片进行分析并得质检分析信息,所述质检分析信息至少包括情感识别信息、语速识别信息、静音识别信息、抢话识别信息、语音有效性识别信息中的一种。本申请能够提高客服服务音频数据的质检效率、覆盖率及降低质检成本,同时,本申请还能够过滤客服服务音频数据中的无效音频数据,进而可节约服务器资源。
  • 一种基于无监督域适应的语音情感识别方法-201610600762.4
  • 毛启容;薛文韬;高利剑;N.鲁瓦;申自强;詹永照 - 江苏大学
  • 2016-07-27 - 2020-01-24 - G10L25/63
  • 本发明公开了一种基于无监督域适应的语音情感识别方法,提出的模型包括:特征提取,情感标签预测,域标签预测。特征提取:首先将原始输入数据分解成两块特征,情感判别特征和情感无关特征,然后将情感判别特征进行层次非线性转换得到高层情感特征。将高层情感特征用于情感标签和域标签的预测。利用梯度下降法对整个模型的参数进行更新,得到特征提取层的各层权重。然后,进行特征提取,源域有标签样本通过训练好的特征提取层得到高层情感特征。最后,进行分类器SVM的训练,将源域有标签样本的高层情感特征和相对应的情感标签输入到SVM中训练,训练好的SVM可用于目标域测试样本的分类。解决了语音情感识别中训练样本和测试样本数据分布不同的问题。
  • 一种情绪引导方法、装置和终端设备-201810688937.0
  • 蔡云龙 - TCL集团股份有限公司
  • 2018-06-28 - 2020-01-07 - G10L25/63
  • 本发明适用于通信技术领域,提供了一种情绪引导方法、装置和终端设备。该方法包括:采集用户的语音信息,将所述语音信息转换为文字信息,根据所述文字信息确定用户当前所属的情绪类别,根据所述情绪类别执行对应的引导指令,对用户进行情绪疏导。本发明实现了通过分析用户(例如老人)的精神状态来进行情绪疏导,以保证用户良好精神状态的目的,安抚和镇定老人的情绪,让老人的心态更加积极向上,有助于慢性疾病的康复,具有较强的易用性和实用性。
  • 一种智能情绪确定方法及系统-201510613689.X
  • 刘振虎;许玲玲 - 中国移动通信集团山东有限公司
  • 2015-09-23 - 2020-01-07 - G10L25/63
  • 本发明实施例提供了一种智能情绪确定方法及系统,获取待检测人员与用户通话的音频信息;从构成音频信息的各音频信息段中,确定异常情绪音频信息段,其中,异常情绪音频信息段为所包含的用于表征待检测人员异常情绪的预设音频信息符合对应预设条件的音频信息段;当能够确定出异常情绪音频信息段时,确定音频信息段对应的待检测人员存在异常情绪。更加客观、分析得到的待检测人员是否存在异常情绪更加准确。本发明涉及计算机技术领域。
  • 语音信号的时频特征提取及人工智能情绪监测方法-201910823584.5
  • 丁帅;李莹辉;孙晓;卢亮;杨善林;尤田;余文颖;张园园 - 合肥工业大学;中国航天员科研训练中心
  • 2019-09-02 - 2019-12-27 - G10L25/63
  • 本申请提供一种语音信号的时频特征提取及人工智能情绪监测方法,其中,本方法首先对监测目标个体的音频数据进行预加重、加窗分帧等预处理,进而搭建深度信念网络充分挖掘数据的时频特征,再利用动态时间规划和蚁群算法,将提取的时频特征与语音情感语料库中预定义语料时频特征进行匹配,以确定监测目标个体对应的情绪分布。上述技术方案过程简捷,不必依赖于经验值,在信噪比较低时对情绪状态的识别率仍然很高,并且,利用深度信念网络提取音频的时频特征,能实现对语音进行时序性分析,实现更精确的情绪状态识别效果。同时,上述技术方案结合动态时间规划和蚁群算法进行特征匹配,实现在局部以及全局上最优匹配,大幅增加了情绪状态的识别效率。
  • 基于情绪识别的智能会话方法、装置及计算机设备-201910858348.7
  • 丰惠 - 深圳壹账通智能科技有限公司
  • 2019-09-11 - 2019-12-13 - G10L25/63
  • 本发明公开了基于情绪识别的智能会话方法、装置、计算机设备及存储介质。该方法先基于当前用户语音数据的语音进行情感识别得到第一情绪识别结果,然后基于当前用户语音数据对应的文本数据及与当前文本数据的时序顺序间隔在间隔值内的历史文本数据集合共同识别得到第二情绪识别结果,以第一情绪识别结果和第二情绪识别结果分别对应的识别值中的最小值作为对应的当前情绪识别结果,最后根据当前文本数据及当前情绪识别结果在答复数据库内获取与其相似度为最大值的当前答复文本,将其对应转化为当前答复语音数据后发送至用户端。该方法实现了基于当前用户语音数据和其对应的前文及本句文本数据来共同识别用户情绪,以推送最佳答复至用户端。
  • 语音情绪识别方法、装置及存储介质-201910875372.1
  • 占小杰;方豪;王少军 - 平安科技(深圳)有限公司
  • 2019-09-17 - 2019-12-10 - G10L25/63
  • 本发明属于人工智能技术领域,公开了一种语音情绪识别方法、装置及存储介质,其中,方法包括:获取待识别语音片段;对获取的待识别语音片段进行预处理,包括:对所述待识别语音片段进行分帧处理,得到多帧语音;用预先训练生成的情绪识别模型对所述多帧语音进行处理,以得出多个情绪识别结果,每个情绪识别结果与一帧语音或设定数量帧语音相对应;根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪。本发明通过得到与每一帧或多帧语音对应的情绪,将对语音的情绪识别减小到毫秒级,更加接近对语音片段情绪的实时连续预测,提高语音情绪识别的准确率。
  • 情感信息的确定方法和装置-201710527121.5
  • 刘海波 - 腾讯科技(深圳)有限公司
  • 2017-06-30 - 2019-12-06 - G10L25/63
  • 本发明公开了一种情感信息的确定方法和装置。其中,该方法包括:获取目标音频,目标音频包括多个音频段;从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征;基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。本发明解决了相关技术中无法准确识别说话者的情感信息的技术问题。
  • 一种基于语言引导与心率反应来评估情绪特征的方法-201910995416.4
  • 张骏 - 四川大学华西医院
  • 2019-10-18 - 2019-12-03 - G10L25/63
  • 本发明公开一种基于语言引导与心率反应来评估情绪特征的方法,所述方法是基于规范的语音引导与当事人心率反应及响应的语音特征来评估的,包括对心率变化进行标识和记录和对响应的语音特征进行标识与记录。本发明能够将心率重要变化与语音特征进行实时反馈并进行有效标识。通过规范的语音引导,让被试者主动回忆过去的重要情感事件,建立用户基本情绪‑心率反应、情绪‑语音特征反应的基线,实现了以心率和语音特征来量化个体化的基本情绪,并能够建立个体化的情绪‑心率反应、情绪‑语音特征反应的特征库。可应用于创伤、不同情绪、自我否定与他人否定等相关事件与经历的评估。
  • 基于深度学习的语音情感识别方法和装置-201910736256.1
  • 郑若冰 - 北京影谱科技股份有限公司
  • 2019-08-09 - 2019-11-22 - G10L25/63
  • 本申请公开了一种基于深度学习的语音情感识别方法和装置,属于语音识别领域。该方法包括:使用梅尔倒谱系数法得到多个训练样本,逐一输入到SVM中进行训练,判断当前训练样本情感识别的准确率,当高于上一训练样本的准确率时,将当前的c和g输入到PSO的适应度函数中,采用迭代方式对PSO进行粒子更新并重新计算适应度函数,直到得到PSO的全局最优解;在多个训练样本全部完成训练后,SVM寻优得到最优化的c和g;当有语音数据待识别时,输入SVM中进行情感识别。该装置包括:获取模块、初始化模块、训练模块、寻优模块和识别模块。本申请提高了语音情感识别的精度和准确率。
  • 基于短视频语音的情感识别方法和装置-201910684758.4
  • 樊硕 - 北京影谱科技股份有限公司
  • 2019-07-26 - 2019-11-19 - G10L25/63
  • 本申请公开了一种基于短视频语音的情感识别方法和装置,属于语音情感识别技术领域。该方法包括:创建短视频的语音数据集,对语音数据集进行预处理,对预处理后的语音数据进行计算得到梅尔倒谱系数,作为输入送入CNN模型进行训练,得到声学情感类别C1;将预处理后的语音数据转换为文本数据,进行分词、去除停用词和文本特征抽取操作,再使用预训练的LSTM模型进行训练得到语义情感类别C2;按照预设的比重结合C1和C2,得到最终语音情感类别C。该装置包括:创建模块、预处理模块、声学识别模块、语义识别模块和结合模块。本申请扩展了语音情感识别中的情感特征维度,增强了分析的准确性和全面性,提高了语音情感识别的准确性。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top