[发明专利]一种扫描文档编改的方法与系统无效
| 申请号: | 201010616821.X | 申请日: | 2010-12-30 |
| 公开(公告)号: | CN102043766A | 公开(公告)日: | 2011-05-04 |
| 发明(设计)人: | 赵海涛;周长岭 | 申请(专利权)人: | 方正国际软件有限公司;方正国际软件(北京)有限公司 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明 |
| 地址: | 215123 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 扫描 文档 方法 系统 | ||
技术领域
本发明涉及一种扫描文档编改的方法与系统。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
由于OCR本身算法的局限性以及原始文本资料的质量原因,OCR从扫描的文本中获取文字信息的过程并不能做到完全正确,因此在扫描文档编改的工作中,通常先由OCR进行识别,再由校勘用户进行人工校勘,即由人工将OCR处理之后的识别文档与被扫描的文档进行比较,找出识别文档中与被扫描文档不一致的字符然后修改。这种工作方式如图1所示,图1是根据现有技术的扫描文档编改的方法的主要步骤示意图。
根据图1所示的流程,如果校勘用户的校勘正确率较低,即校勘发现的OCR错误识别的字符数与OCR错误识别的总字符数的比值校低,则经过该校勘用户处理的校勘文档中仍有可能存在较多的错误字符,影响了扫描文档编改工作的准确性。
现有的扫描文档编改的方法准确性较低,对于该问题,目前尚未提出有效解决方案。
发明内容
本发明的主要目的是提供一种扫描文档编改的方法与系统,用以解决现有技术中扫描文档编改的方法准确性较低的问题。
为解决上述问题,根据本发明的一个方面,提供了一种扫描文档编改的方法。
本发明的扫描文档编改方法包括:接收初始文档在光学字符识别(OCR)后的识别文档;对所述识别文档进行修改并对该修改进行记录;接收校勘用户对修改后的识别文档进行校勘得出的校勘文档;根据所述校勘文档中对所述修改的内容的校勘结果,得出所述校勘用户的校勘正确率;判断所述校勘正确率是否大于预设值,若是则输出所述校勘文档。
进一步地,对所述识别文档进行修改包括:在所述识别文档中的预设位置将识别正确的字符修改为其他字符。
进一步地,对所述识别文档进行修改包括:在所述识别文档中的预设位置将识别错误的字符修改为该预设位置的正确字符以外的字符。
进一步地,对所述识别文档进行修改之前还包括:按字符统计所述校勘用户对各字符的校勘正确率;对所述识别文档进行修改包括:从所述校勘用户的校勘正确率低于预设值的字符中确定出一种或多种字符,将所述识别文档中的全部或部分所述一种或多种字符分别对应修改为各字符被错误识别时得到的字符。
进一步地,在所述校勘正确率不大于预设值的情况下,输出提示信息,该提示信息用于提示所述校勘用户对所述校勘文档再次进行校勘,以及接收对所述校勘文档再次进行校勘的校勘文档。
进一步地,输出所述校勘文档之后包括:将所述校勘文档中经过所述修改的内容恢复为所述修改前的内容。
为解决上述问题,根据本发明的一个方面,提供了一种扫描文档编改的系统。
本发明的扫描文档编改的系统包括:第一接收模块,用于接收初始文档在光学字符识别(OCR)后的识别文档;修改记录模块,用于对所述识别文档进行修改并对该修改进行记录;第二接收模块,用于接收校勘用户对修改后的识别文档进行校勘得出的校勘文档;第一统计模块,用于根据所述校勘文档中对所述修改的内容的校勘结果,得出所述校勘用户的校勘正确率;分析模块,用于判断所述校勘正确率是否大于预设值,若是则输出所述校勘文档。
进一步地,所述修改记录模块还用于在所述识别文档中的预设位置将识别正确的字符修改为其他字符。
进一步地,所述修改记录模块还用于在所述识别文档中的预设位置将识别错误的字符修改为该预设位置的正确字符以外的字符。
进一步地,所述系统还包括第二统计模块,用于按字符统计所述校勘用户对各字符的校勘正确率;所述修改记录模块还用于从所述校勘用户的校勘正确率低于预设值的字符中确定出一种或多种字符,将所述识别文档中的全部或部分所述一种或多种字符分别对应修改为各字符被错误识别时得到的字符。
进一步地,所述系统还包括输出模块,用于输出提示信息,该提示信息用于提示所述校勘用户对所述校勘文档再次进行校勘;所述第二接收模块还用于接收对所述校勘文档再次进行校勘的校勘文档。
进一步地,所述系统还包括恢复模块,用于将所述校勘文档中经过所述修改的内容恢复为所述修改前的内容。
根据本发明的技术方案,通过获取用户的校勘正确率的方式来考察校勘文档是否可以接受,只有用户的校勘正确率大于预设值的情况下才认可其校勘结果,从而提高了扫描文档编改的准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件有限公司;方正国际软件(北京)有限公司,未经方正国际软件有限公司;方正国际软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010616821.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种秸秆纤维欧式大波瓦
- 下一篇:一种钢筋锚固装置





