[发明专利]语音识别方法及系统有效
申请号: | 201710327374.8 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107204184B | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 王健宗;程宁;查高密;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/183 | 分类号: | G10L15/183;G10L15/06;G10L15/02;G06F17/27 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种语音识别方法及系统,该方法包括:从预先确定的数据源获取特定类型的信息文本;对获取的各个信息文本进行语句切分得到若干语句,对各个语句进行分词处理得到对应的分词,由各个语句与对应的分词构成第一映射语料;根据得到的各个第一映射语料,训练预设类型的第一语言模型,并基于训练的所述第一语言模型进行语音识别。本发明有效提高语音识别的精度且有效降低语音识别的成本。 | ||
搜索关键词: | 语音 识别 方法 系统 | ||
【主权项】:
1.一种语音识别方法,其特征在于,所述方法包括以下步骤:A、从预先确定的数据源获取特定类型的信息文本;B、对获取的各个信息文本进行语句切分得到若干语句,对各个语句进行分词处理得到对应的分词,由各个语句与对应的分词构成第一映射语料;C、根据得到的各个第一映射语料,训练预设类型的第一语言模型;根据各个预先确定的样本语句与对应的分词的第二映射语料,训练预设类型的第二语言模型;根据预先确定的模型混合公式,将训练的所述第一语言模型及第二语言模型进行混合,以获得混合语言模型,并基于获得的所述混合语言模型进行语音识别;所述预先确定的模型混合公式为:M=a*M1+b*M2其中,M为混合语言模型,M1代表预设类型的第一语言模型,a代表预设的模型M1的权重系数,M2代表预设类型的第二语言模型,b代表预设的模型M2的权重系数;所述预设类型的第一语言模型及/或第二语言模型为n‑gram语言模型,所述预设类型的第一语言模型或第二语言模型的训练过程如下:S1、将各个第一映射语料或者各个第二映射语料分为第一比例的训练集和第二比例的验证集;S2、利用所述训练集训练所述第一语言模型或者第二语言模型;S3、利用所述验证集验证训练的第一语言模型或者第二语言模型的准确率,若准确率大于或者等于预设准确率,则训练结束;若准确率小于预设准确率,则增加第一映射语料或者第二映射语料的数量并重新执行步骤S1、S2、S3;所述对各个切分的语句进行分词处理的步骤包括:在一个切分的语句被选择进行分词处理时,根据正向最大匹配法将该切分的语句与预先确定的字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;根据逆向最大匹配法将该切分的语句与预先确定的字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该切分的语句的分词结果;若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该切分的语句的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该切分的语句的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该切分的语句的分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710327374.8/,转载请声明来源钻瓜专利网。