[发明专利]语音识别的建模方法和装置有效
申请号: | 201510920809.0 | 申请日: | 2015-12-11 |
公开(公告)号: | CN105551483B | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 白锦峰;苏丹;胡娜;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 11201 北京清亦华知识产权代理事务所(普通合伙) | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 建模 方法 装置 | ||
1.一种语音识别的建模方法,其特征在于,包括:
将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;
在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;
基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型;
其中,所述方法还包括:
在基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练的过程中,进行区分度训练,以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力;
其中,所述基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型包括:
通过对深度循环神经网络采用固定边界的交叉熵训练,获得初始模型;
在所述初始模型的基础上,基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述将语音信号转化成特征向量序列包括:
按照预定的窗长和预定的步长将所述语音信号转化为固定维数的特征向量序列。
3.根据权利要求1所述的方法,其特征在于,所述基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型之后,还包括:
通过所述语音识别模型对待识别的语音信号进行识别。
4.一种语音识别的建模装置,其特征在于,包括:
转化模块,用于将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;
添加模块,用于在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;
训练模块,用于基于连接时序分类对所述转化模块转化的特征向量序列和所述添加模块添加所述空白标签后的建模单元序列进行训练,建立语音识别模型;
其中,所述训练模块,还用于在基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练的过程中,进行区分度训练,以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力;
其中,所述训练模块,具体用于通过对深度循环神经网络采用固定边界的交叉熵训练,获得初始模型;在所述初始模型的基础上,基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
5.根据权利要求4所述的装置,其特征在于,
所述转化模块,具体用于按照预定的窗长和预定的步长将所述语音信号转化为固定维数的特征向量序列。
6.根据权利要求4所述的装置,其特征在于,还包括:
识别模块,用于通过所述训练模块建立的语音识别模型对待识别的语音信号进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510920809.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网络教学实时语音分析系统
- 下一篇:可调降噪箱