[发明专利]一种针对民航陆空通话领域的端到端的自动语音识别方法在审
申请号: | 201910571279.1 | 申请日: | 2019-06-25 |
公开(公告)号: | CN112133292A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 杨群;周凯;刘绍翰 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/183;G10L15/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 民航 陆空 通话 领域 端到端 自动 语音 识别 方法 | ||
1.一种针对民航陆空通话领域的端到端自动语音识别方法,其特征在于利用端到端模型建立的适用于民航陆空通话的自动语音识别方法,所述语音识别方法包括:
以端到端模型为声学模型进行语音识别;
其中端到端模型的训练方法;
基于端到端模型的语音识别方法在民航陆空通话领域的应用。
2.根据权利要求1所述的语音识别方法,其特征在于使用端到端模型作为语音识别的声学模型,利用所述端到端模型进行语音识别,具体包括:
端到端模型的结构特征在于它是基于时延神经网络结构与长短时记忆单元结构的复合神经网络模型;
特殊结构的上下文相关信息模型,用于统计上下文相关信息;
可选的语言模型,用于统计字词间的出现概率,用于解码过程中音素到字词的映射;
将所述基于端到端模型的声学模型结合上下文相关模型即为所述的端到端语音识别模型,可选的附加语言模型可以进一步提高语音识别效果。
3.根据权利要求1所述的端到端模型训练方法,其特征在于端到端模型是根据最大相关互信息结合免词格方法训练,具体包括:
根据所述最大相关互信息为目标函数训练所述端到端模型;
所述免词格方法具体是指在训练过程中无须重复生成词格;
所述训练方法以特殊的方式使端到端模型训练过程中无需预先生成对齐文件、带有上下文相关信息的状态绑定树以及混合高斯模型等。
4.根据权利要求1所述的基于端到端模型的语音识别方法在民航陆空通话领域的应用,其特征在于陆空通话领域的字词发音以及句法有其特殊性,根据所述应用方法,具体包括:
针对陆空通话领域特殊子词的特殊发音,我们构建特殊的陆空通话领域内的发音词典;
可选地构建特殊的陆空通话领域的语言模型;
在所述免词格方式训练端到端模型之前的特殊格式的训练样本准备方法。
5.总的来说,根据权利要求1所述的语音识别方法,其特征在于基于端到端模型并且应用于民航陆空通话领域,具体包括:
构建民航陆空通话领域内特殊的发音词典、语言模型;
以特殊的数据准备和数据处理方法为端到端模型训练准备样本;
根据所述最大相关互信息目标函数结合免词格方法以及所得训练样本训练端到端模型;
以所得端到端模型为声学模型可选地结合语言模型进行语音识别;
根据所述端到端模型对输入语音进行识别,可得到相应语音内容的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910571279.1/1.html,转载请声明来源钻瓜专利网。