[发明专利]一种基于语音识别的信息查询方法及系统、设备和存储介质有效
申请号: | 202110971706.2 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113674734B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 阎志远;戴琳琳;景辉;吕占民;王智为;宋春晓;随玉腾;候亚伟;衣帅;张世平;李贝贝;苗凡;李杨;祝红光;吴首蓉;刘典 | 申请(专利权)人: | 中国铁道科学研究院集团有限公司电子计算技术研究所;中国铁道科学研究院集团有限公司;北京经纬信息技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/183;G10L15/26;G10L19/00;G06F16/33;G06F16/338;G06F16/35 |
代理公司: | 北京金盾律师事务所 11910 | 代理人: | 李岩 |
地址: | 100041*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 识别 信息 查询 方法 系统 设备 存储 介质 | ||
本申请公开了一种基于语音识别的信息查询方法、系统、计算机设备和计算机可读存储介质。其方法技术方案包括步骤:编码步骤用于输入音频数据,采用transformer编码器进行特征值提取,输出二维特征值序列;解码步骤:基于二维特征值序列,采用transformer和n‑gram结合的解码器进行流式语音解码及识别后,筛选输出第一次文本排序M个结果后,基于二维特征值序列及第一次匹配文本排序M个结果,采用conformer模型进行非流式语音解码及识别,输出第二次文本排序N个结果,其中N和M为大于等于1的正整数,且N小于等于M;赋值加权步骤用于在解码步骤输出的文本排序结果中,基于热词词典进行赋值加权,输出最优查询结果。本发明通过增加语言模型和热词权重功能,提升了语音识别的准确率。
技术领域
本申请涉及信息查询领域,特别是涉及一种基于语音识别的信息查询方法、系统、计算机设备和计算机可读存储介质。
背景技术
当前,随着语音识别技术的发展,可以发现语音识别用户接受程度高、操作方便,不涉及用户隐私问题,推广语音识别相关应用更为方便。
从场景上,语音识别可以分为流式语音识别和非流式语音识别。非流式语音识别(离线识别)是指模型在用户说完一句话或一段话之后再进行识别,而流式语音识别则是指模型在用户还在说话的时候便同步进行语音识别。流式语音识别因为其延时低的特点,在工业界中有着广泛的应用,例如听写转录等。
Transformer模型在自然语言领域被提出后,目前已经扩展到了计算机视觉、语音等诸多领域。Transformer模型在流式的语音识别场景下有着更好的准确率。
N-Gram是大词汇连续语音识别中常用的一种语言模型,N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。
目前,现有技术中采用的流式与非流式语音识别统一模型通常为共享的Encoder、CTC解码器、Attention解码器,共享Encoder包含多层transformer或者conformer,CTC解码器为一个全连接层和一个softmax层,Attention解码器包含多层transformer层。
但是,该流式与非流式语音识别统一模型存在着缺乏特定专用词汇及不同上下文语境下的语音识别,同时,现有技术语音识别方法对于不常用词语的概率估计准确率低,对特定专用词无法实现增加权重,以提升专用名词的识别准确率。
本发明提供了一套解决基于语音识别的信息查询的解决方案,实现流式与非流式语音识别相结合的算法模型,同时,在解码过程中设计的两个语言模型和解码结束后的热词赋权,以增加特定专用名词和专用话术的识别率。
发明内容
本申请实施例提供了一种基于语音识别的信息查询解决方案,实现流式与非流式语音识别相结合的算法模型,同时,在解码过程中设计的两个语言模型和解码结束后的热词赋权,以增加特定专用名词和专用话术的识别率。
第一方面,本申请实施例提供了基于语音识别的信息查询方法,采用流式和非流式混合语音识别,方法包括:
编码步骤:输入音频数据,采用transformer编码器进行特征值提取,输出二维特征值序列;
解码步骤:基于所述二维特征值序列,采用transformer和n-gram结合的解码器进行流式语音解码及识别后,筛选输出第一次文本排序M个结果后,基于所述二维特征值序列及所述第一次匹配文本排序M个结果,采用conformer模型进行非流式语音解码及识别,输出第二次文本排序N个结果,其中N和M为大于等于1的正整数,且N小于等于M;
赋值加权步骤:在所述解码步骤输出的文本排序结果中,基于热词词典进行赋值加权,输出最优查询结果。
在其中一些实施例中,上述解码步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国铁道科学研究院集团有限公司电子计算技术研究所;中国铁道科学研究院集团有限公司;北京经纬信息技术有限公司,未经中国铁道科学研究院集团有限公司电子计算技术研究所;中国铁道科学研究院集团有限公司;北京经纬信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110971706.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种饮料机
- 下一篇:一种服装口袋与商品相结合的设计
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置