[发明专利]文本纠错方法、装置、电子设备和存储介质在审
申请号: | 202110598406.4 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113283233A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 门玉玲 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 电子设备 存储 介质 | ||
本申请涉及自然语言处理技术领域,具体公开了一种文本纠错方法、装置、电子设备和存储介质,其中,纠错方法包括:将识别文本中的第一字符替换为第二字符;对识别文本中通过对第一字符进行替换得到的第二字符添加标识;根据识别文本中带有标识的第二字符的相邻字符,确定识别文本中带有标识的第二字符中的待纠错的第二字符;获取待纠错的第二字符的特征;将识别文本中的带有标识的第二字符中与待纠错的第二字符的特征匹配的第二字符替换为第一字符,得到纠错后的识别文本。通过本申请所提供的文本纠错方法,可以实现对识别文本中的识别错误的自动纠错,大大减少了人力资源的消耗,提高了纠错效率,并保障了自动纠错的准确率。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本纠错方法、装置、电子设备和存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR),是对输入图像进行电子扫描并从中提取文字的过程,相比人工手打文字,其录入速度更快,能节省大量人力资源,还可用于各种领域的自动化识别如车牌识别、身份证识别、银行卡识别等。
但是,OCR对于某些字符的识别会出现固定的错误。因此,对OCR之后的文本需要进行人工纠错。例如,将AdobeAcrobatDC对PDF文件转化为Word文件过程中的OCR识别为例,在OCR识别过程中,总是会将“基于”识别为“晶千”,“由此”识别为“山此”,“基础”识别为“辈础”。因此,在大批量文件的转化过程中,校对人员需要反复对此类错误进行重复性的修改,需要花费大量的人力,纠错效率低。
发明内容
为了解决现有技术中存在的上述问题,本申请实施方式提供了一种文本纠错方法、装置、电子设备和存储介质,可以自动识别错误字符并进行替换,并对替换错误的地方进行自动回滚,在减少了人力消耗的同时,提高了纠错效率。
第一方面,本申请的实施方式提供了一种文本纠错方法,包括:
将识别文本中的第一字符替换为第二字符;
对识别文本中通过对第一字符进行替换得到的第二字符添加标识;
根据识别文本中带有标识的第二字符的相邻字符,确定识别文本中带有标识的第二字符中的待纠错的第二字符;
获取待纠错的第二字符的特征;
将识别文本中的带有标识的第二字符中与待纠错的第二字符的特征匹配的第二字符替换为第一字符,得到纠错后的识别文本。
第二方面,本申请的实施方式提供了一种文本纠错装置,包括:
字符替换模块,用于将识别文本中的第一字符替换为第二字符;
字符标识模块,用于对识别文本中通过对第一字符进行替换得到的第二字符添加标识;
字符确定模块,用于根据识别文本中带有标识的第二字符的相邻字符,确定识别文本中带有标识的第二字符中的待纠错的第二字符;
特征确定模块,用于获取待纠错的第二字符的特征;
字符替换模块,还用于将识别文本中的带有标识的第二字符中与待纠错的第二字符的特征匹配的第二字符替换为第一字符,得到纠错后的识别文本。
第三方面,本申请实施方式提供一种电子设备,包括:处理器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。
第四方面,本申请实施方式提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。
第五方面,本申请实施方式提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110598406.4/2.html,转载请声明来源钻瓜专利网。