[发明专利]文本纠正方法、设备及存储介质在审
申请号: | 202010544358.6 | 申请日: | 2020-06-15 |
公开(公告)号: | CN113807080A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 顾鹏程;沈冀;谢韬;穆瑞斌;邵长东;高倩 | 申请(专利权)人: | 科沃斯商用机器人有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06N3/04;G06N3/08 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 张爱;刘戈 |
地址: | 215104 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠正 方法 设备 存储 介质 | ||
1.一种文本纠正方法,其特征在于,包括:
获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;
生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;
将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;
从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
2.根据权利要求1所述的方法,其特征在于,生成所述待纠正文本对应的初始拼音序列,包括:
根据所述待纠正文本的拼音特征,从至少一种拼音模式中选择目标拼音模式;
根据所述目标拼音模式,生成所述待纠正文本对应的初始拼音序列;
所述至少一种拼音模式包括去声调拼音模式、带声调拼音模式、去声调且声母韵母分开的拼音模式、带声调且声母韵母分开的拼音模式、仅使用首个声母或韵母的拼音模式以及韵母拼音细分的拼音模式中的一种或多种。
3.根据权利要求1所述的方法,其特征在于,在所述初始拼音序列中添加指定特征标识符得到目标拼音序列,包括:
在所述初始拼音序列中添加场景标识符和首字标识符中至少一个标识符,得到目标拼音序列;
其中,所述场景标识符表示所述待纠正文本所属的领域场景,用以纠正不同领域内的词汇冲突;所述首字标识符表示所述待纠正文本可能需要添加首字,用以纠正首字遗漏问题。
4.根据权利要求1所述的方法,其特征在于,将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合,包括:
在所述拼音-文本预测模型中,利用编码网络将所述目标拼音序列编码为固定大小的第一特征向量;
利用解码网络对所述第一特征向量进行解码,得到第二特征向量;
根据所述第二特征向量,得到包含至少一个候选文本的候选文本集合。
5.根据权利要求1所述的方法,其特征在于,从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本,包括:
根据语言模型计算所述候选文本集合中各候选文本的得分;
根据已知的领域关键词,对包含领域关键词的候选文本的得分进行调整;
选择调整后得分最高的候选文本作为所述待纠正文本对应的纠正后文本。
6.根据权利要求5所述的方法,其特征在于,根据已知的领域关键词,对包含领域关键词的候选文本的得分进行调整,包括:
根据已知的领域关键词,统计包含领域关键词的候选文本及其包含的领域关键词的数量;
根据包含领域关键词的候选文本所包含的领域关键词的数量,对包含领域关键词的候选文本的得分进行调整。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
获取训练语料,所述训练语料包括文本语料及其对应的拼音语料;
在所述训练语料中的拼音语料中,添加指定特征标识符;
根据带有所述指定特征标识符的训练语料进行模型训练,得到所述拼音-文本预测模型。
8.根据权利要求7所述的方法,其特征在于,若所述指定特征标识符包括首字标识符,则获取训练语料,包括:
获取文本语料;
将所述文本语料及其对应的正确拼音序列,生成标准训练语料;
利用已知的模糊音,对所述标准训练语料中的正确拼音进行替换,得到模糊音训练语料;
将所述标准训练语料和所述模糊音训练语料中的首字拼音去掉,得到首字遗漏训练语料。
9.根据权利要求8所述的方法,其特征在于,若所述指定特征标识符还包括场景标识符,则所述获取文本语料包括:获取通用领域场景和垂直领域场景中的文本语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科沃斯商用机器人有限公司,未经科沃斯商用机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010544358.6/1.html,转载请声明来源钻瓜专利网。