[发明专利]语音识别方法及装置、存储介质、电子设备有效
申请号: | 201710357910.9 | 申请日: | 2017-05-19 |
公开(公告)号: | CN107316635B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 潘嘉;刘聪;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L25/63 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 存储 介质 电子设备 | ||
本公开提供一种语音识别方法及装置、存储介质、电子设备。该方法包括:获取当前用户的语音数据,从所述语音数据中提取声学特征;基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。如此方案,有助于提高语音识别的准确率。
技术领域
本公开涉及语音识别领域,具体地,涉及一种语音识别方法及装置、存储介质、电子设备。
背景技术
随着人工智能技术的不断突破,以及各种智能终端的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高。语音作为最方便、最快捷的交互方式之一,其识别俨然已成为人机交互的重要环节。
在实际应用过程中,不同用户之间的发音习惯各不相同,若采用传统的基于统一语音识别模型实现语音识别的方案,无法确保针对所有用户都能具有很好的识别准确率。因此,为每个用户单独构建个性化语音识别模型,以提高不同用户的语音识别准确率,已成为语音识别领域的重要研究方向。
发明内容
本公开的主要目的是提供一种语音识别方法及装置、存储介质、电子设备,可以结合用户所处的对话场景进行语音识别,有助于提高语音识别准确率,达到更好的语音识别效果。
为了实现上述目的,本公开第一方面提供一种语音识别方法,所述方法包括:
获取当前用户的语音数据,从所述语音数据中提取声学特征;
基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;
基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;
利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。
在第一方面的第一种可能的实现方式中,所述语音属性为对话环境、对话情绪、对话对象、对话主题中的至少一项。
在第一方面的第二种可能的实现方式中,获得所述当前用户具有的语音属性的方式为:
获取所述当前用户的历史语音数据,根据语音数据量与语音属性数量之间的对应关系,确定所述历史语音数据的数量对应的语音属性的数目N;
基于所述历史语音数据,对语音属性总类中所有的语音属性,按照确定性高低进行排序,所述语音属性的确定性为,所述历史语音数据属于该语音属性中每个维度的概率的熵;
将所述排序中确定性最低的N个语音属性,选取为所述当前用户具有的语音属性。
在第一方面的第三种可能的实现方式中,预先利用所述当前用户的历史语音数据、N个语音属性、以及每个语音属性具有的细分维度,获得所述声学特征与所述分布情况之间的映射关系,则
所述获得所述语音数据在各语音属性中每个维度的分布情况,包括:
基于所述声学特征和所述映射关系,得到所述分布情况。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述映射关系体现为分别针对各语音属性构建的属性判别模型,构建所述属性判别模型的方式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710357910.9/2.html,转载请声明来源钻瓜专利网。