[发明专利]混淆汉字的生成方法、终端设备及计算机可读存储介质在审
申请号: | 202110693430.6 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113536786A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 赵洋;朱继刚;包荣鑫;陈龙;夏政委 | 申请(专利权)人: | 深圳价值在线信息科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F40/232 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 田甜 |
地址: | 518000 广东省深圳市福田区沙头街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混淆 汉字 生成 方法 终端设备 计算机 可读 存储 介质 | ||
本申请适用于数据处理技术领域,提供了一种混淆汉字的生成方法、终端设备及计算机可读存储介质,包括:从预设语料库中提取出汉字集合,所述汉字集合中包括多个汉字;生成所述汉字集合中每个汉字的读音特征和结构特征;根据所述读音特征确定目标字在所述汉字集合中的音近字,所述目标字为所述汉字集合中的任意一个汉字;根据所述结构特征确定所述目标字在所述汉字集合中的形近字;根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字。通过上述方法,可以有效提高混淆字字典的生成效率,并有效提高混淆字字典的通用性,进而提高文本纠错的准确率。
技术领域
本申请属于数据处理技术领域,尤其涉及一种混淆汉字的生成方法、终端设备及计算机可读存储介质。
背景技术
随着人工智能技术的发展,自然语言处理技术的应用也越来越广泛。在自然语言处理过程中,随着待处理文本中错误词语的增加,自然语言处理结果的准确度也随之降低。因此,文本纠错是自然语言处理中的关键步骤。文本纠错是指将文本中错误的词语纠正为正确词语的过程。例如:将文本“大会采用现场计名投票的表决方式”中的“计”纠正为“记”。
文本纠错主要依赖于混淆字字典,混淆字字典中包括正确字和每个正确字的混淆字。现有技术中,通常是人工构建混淆字字典。这种方式工作量较大,效率较低;且由于标准不统一,导致生成的混淆字字典的通用性较差,进而影响文本纠错的准确率。
发明内容
本申请实施例提供了一种混淆汉字的生成方法、终端设备及计算机可读存储介质,可以有效提高混淆字字典的生成效率,并有效提高混淆字字典的通用性,进而提高文本纠错的准确率。
第一方面,本申请实施例提供了一种混淆汉字的生成方法,包括:
从预设语料库中提取出汉字集合,所述汉字集合中包括多个汉字;
生成所述汉字集合中每个汉字的读音特征和结构特征;
根据所述读音特征确定目标字在所述汉字集合中的音近字,所述目标字为所述汉字集合中的任意一个汉字;
根据所述结构特征确定所述目标字在所述汉字集合中的形近字;
根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字。
在本申请实施例中,通过从预设语料库中提取汉字集合,能够获得常用的汉字;然后生成每个汉字的读音特征和结构特征,并根据每个汉字的读音特征和结构特征分别生成每个汉字的音近字和形近字;由于汉字的错误主要为音近字错误和形近字错误,因此,利用上述方法能够获得每个汉字的全面的、准确的相近字;最后根据每个汉字的音近字和形近字生成每个汉字的混淆字。通过上述方法,能够自动生成每个汉字的混淆字,有效提高了混淆字字典的生成效率;另外,利用上述方法生成的混淆字字典准确而全面,通用性较强,从而有利于提高文本纠错的准确率。
在第一方面的一种可能的实现方式中,所述从预设语料库中提取出汉字集合,包括:
统计所述预设语料库中每个汉字的出现频率;
按照所述出现频率从高到低的顺序对所述预设语料库中的汉字进行排序,得到第一汉字序列;
将所述第一汉字序列中前N个汉字生成所述汉字集合,其中,所述N为大于1大正整数。
在第一方面的一种可能的实现方式中,所述生成所述汉字集合中每个汉字的读音特征和结构特征,包括:
对于所述汉字集合中的任意一个汉字,根据所述汉字每种读音的声调和音节生成所述汉字每种读音的读音字符串;
将所述汉字每种读音的读音字符串确定为所述汉字的所述读音特征;
按照预设的汉字结构规则,将所述汉字拆分为多个偏旁部首;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳价值在线信息科技股份有限公司,未经深圳价值在线信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110693430.6/2.html,转载请声明来源钻瓜专利网。