[发明专利]文本纠错方法、文本纠错装置和电子设备在审
| 申请号: | 202210134582.7 | 申请日: | 2022-02-14 |
| 公开(公告)号: | CN114510926A | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 罗达雄;时从斌 | 申请(专利权)人: | 维沃移动通信有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 任少瑞 |
| 地址: | 523863 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 纠错 方法 装置 电子设备 | ||
1.一种文本纠错方法,其特征在于,包括:
从目标文本中确定目标错误位置;
对所述目标错误位置的目标字符进行处理,生成所述目标字符对应的语义替换字符集、音近替换字符集和形近替换字符集;
基于所述语义替换字符集、所述音近替换字符集和所述形近替换字符集,生成所述目标字符对应的目标替换字符集;
基于所述目标替换字符集对所述目标文本进行纠错;
其中,所述语义替换字符集中的替换字符为与所述目标字符语义相近的字符,所述音近替换字符集中的替换字符为与所述目标字符拼音相近的字符,所述形近替换字符集中的替换字符为与所述目标字符的字形相近的字符。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述语义替换字符集包括第一语义替换字符集和第二语义替换字符集,所述对所述目标错误位置的目标字符进行处理,生成所述目标字符对应的语义替换字符集、音近替换字符集和形近替换字符集,包括:
基于目标词表,生成所述目标错误位置对应的多个初始语义替换字符及所述初始语义替换字符对应的生成概率;
基于所述生成概率确定N个初始语义替换字符,并基于所述生成概率对所述N个初始语义替换字符进行排序,生成所述第一语义替换字符集;
用所述第一语义替换字符集中的第一语义替换字符分别替换所述目标错误位置对应目标字符;
基于所述第一语义替换字符对应的条件概率生成替换后的替换分数;
基于所述替换分数对所述第一语义替换字符集中的第一语义替换字符进行排序,生成所述第二语义替换字符集。
3.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述语义替换字符集、所述音近替换字符集和所述形近替换字符集,生成所述目标字符对应的目标替换字符集,包括:
从所述语义替换字符集中提取目标语义替换字符,从所述音近替换字符集中提取目标音近替换字符,从所述形近替换字符集中提取目标形近替换字符;
基于目标替换字符生成目标特征融合向量,所述目标替换字符包括所述目标语义替换字符、所述目标音近替换字符和所述目标形近替换字符;
基于所述目标特征融合向量,生成所述目标字符对应的目标替换字符集。
4.根据权利要求3所述的文本纠错方法,其特征在于,所述基于目标替换字符生成目标特征融合向量,包括:
获取所述目标语义替换字符的目标语义分数、所述目标音近替换字符的目标音近分数和所述目标形近替换字符的目标形近分数;
基于所述目标语义替换字符、所述目标语义分数、所述目标音近替换字符、所述目标音近分数、所述目标形近替换字符和所述目标形近分数,生成所述目标特征融合向量。
5.根据权利要求3所述的文本纠错方法,其特征在于,所述基于所述目标特征融合向量,生成所述目标字符对应的目标替换字符集,包括:
基于所述目标特征融合向量,生成所述目标替换字符对应的目标分数;
基于所述目标分数对所述目标替换字符进行排序,生成所述目标字符对应的目标替换字符集。
6.根据权利要求1-5任一项所述的文本纠错方法,其特征在于,所述从目标文本中确定目标错误位置,包括:
切分所述目标文本,生成字词向量集;
计算所述字词向量集中的每一个字符的错误概率;
在所述错误概率大于目标阈值的情况下,将所述字符对应的位置确定为所述目标错误位置;
或者,
接收用户对所述目标文本的第一输入;
响应于所述第一输入,确定所述目标错误位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于维沃移动通信有限公司,未经维沃移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210134582.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种引导膜及其制备方法
- 下一篇:数据压缩方法、装置、设备及存储介质





