[发明专利]文本信息纠错方法、装置、计算机设备和存储介质有效
申请号: | 201811325678.1 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109522550B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 肖文龙;刘建;黄华伦 | 申请(专利权)人: | 和美(深圳)信息技术股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518051 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 信息 纠错 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种文本信息纠错方法,所述方法包括:获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。采用本方法能够提高文本信息的准确性,从而提高语音识别的准确性。
技术领域
本申请涉及语音技术领域,特别是涉及一种文本信息纠错方法、装置、计算机设备和存储介质。
背景技术
语音识别是一门交叉学科,该技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等多个领域。语音识别的主要过程是获取拾音系统中的音频信息,从该音频信息中提取声学特征,然后根据语音识别模型将音频信息转化为文本信息。在语音识别的过程中,文本信息的准确性极易受到各种因素的影响。例如,语音识别模型不能识别音频信息中的谐音词语、音频信息中英混杂,以及音频信息中用户发音不准等。因此,如何提高文本信息的准确性,从而提高语音识别的准确性成为目前需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在提高文本信息的准确性,从而提高语音识别的准确性的文本信息纠错方法、装置、计算机设备和存储介质。
一种文本信息纠错方法,所述方法包括:
获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;
当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;
在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。
在其中一个实施例中,所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表,包括:
根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;
当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。
在其中一个实施例中,所述在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,包括:
当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;
当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。
在其中一个实施例中,所述方法还包括:当所述比对结果中未得到比对成功的词语时,将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对,得到拼音比对结果;选取所述拼音比对结果中匹配度最高的词语,将所述匹配度最高的词语对相应的字符串进行纠错。
在其中一个实施例中,所述方法还包括:
对所述字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理;
在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。
一种文本信息纠错装置,所述装置包括:
信息转化模块,用于获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于和美(深圳)信息技术股份有限公司,未经和美(深圳)信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811325678.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置