[发明专利]语音识别的建模方法和装置有效
申请号: | 201510920809.0 | 申请日: | 2015-12-11 |
公开(公告)号: | CN105551483B | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 白锦峰;苏丹;胡娜;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 11201 北京清亦华知识产权代理事务所(普通合伙) | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 建模 方法 装置 | ||
本发明提出一种语音识别的建模方法和装置,上述语音识别的建模方法包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别的建模方法和装置。
背景技术
现有的大词汇量汉语语音识别方法主要基于混合方法,例如:高斯混合模型(Gaussian Mixture Model;以下简称:GMM)+隐马尔科夫模型(Hidden Markov Model;以下简称:HMM)、深度神经网络(Deep Neural Network;以下简称:DNN)+HMM等。具体而言,在基于统计的混合方法建模的语音识别中,用于估计隐马尔可夫模型的状态后验概率的方法有:高斯混合模型、深度神经网络(特指深度多层感知机)、深度卷积神经网络和深度循环神经网络等以及几者的组合模型。
语音信号是典型的时序信号,具有短时平稳特点,但因为背景噪声、信道、说话人(即性别、年龄、语速和/或口音等)等因素导致语音信号非常复杂。
但是,现有的语音识别方法都是基于混合方法,而且语音识别中的建模单元都是基于传统的状态建模单元,状态建模极大的束缚了现有所有的建模方法,使用上述状态建模单元建立的语音识别模型对语音识别的识别性能较差。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音识别的建模方法。该方法基于连接时序分类(Connectionist Temporal Classification;以下简称:CTC)的深度循环神经网络,建立语音识别模型,提高了语音识别模型的识别速度和准确率。
本发明的第二个目的在于提出一种语音识别的建模装置。
为了实现上述目的,本发明第一方面实施例的语音识别的建模方法,包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建 立语音识别模型。
本发明实施例的语音识别的建模方法,在将语音信号转化成特征向量序列,以及将上述语音信号对应的标注文本转化成建模单元序列之后,在上述建模单元序列中的任意建模单元的前面或后面添加空白标签,然后基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型,其中,上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元,从而可以实现基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
为了实现上述目的,本发明第二方面实施例的语音识别的建模装置,包括:转化模块,用于将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;添加模块,用于在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;训练模块,用于基于连接时序分类对所述转化模块转化的特征向量序列和所述添加模块添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510920809.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网络教学实时语音分析系统
- 下一篇:可调降噪箱