[发明专利]一种保留原生内容的OCR双层文件生成方法在审

专利信息
申请号: 202210109987.5 申请日: 2022-01-28
公开(公告)号: CN114463758A 公开(公告)日: 2022-05-10
发明(设计)人: 瞿欢;陈欣;姬辉;何鹏飞 申请(专利权)人: 南京云档信息科技有限公司
主分类号: G06V30/148 分类号: G06V30/148;G06N3/04
代理公司: 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 代理人: 孙丽君
地址: 210000 江苏省南京市栖霞区*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 保留 原生 内容 ocr 双层 文件 生成 方法
【说明书】:

发明公开了一种保留原生内容的OCR双层文件生成方法,该方法包括以下步骤:对原生文件进行计算、光学字符识别及存储;获取待使用文件,记录文件id;根据所述文件id与页码,读取对应的光学字符识别结果;根据用户需求,返回不同类型结果。通过单独存储版式文件格式信息和OCR结果信息,在不改变原始数据内容的前提下提供“双层”版式文件的使用,并且能灵活控制输出“双层”版式文件、“单文字层”版式文件和原生文件,从而不改变原始数据内容,原生文件原有的电子签名以及区块链信息等都不会改变,保证了数据的安全性和可靠性。

技术领域

本发明涉及文件处理技术领域,具体来说,涉及一种保留原生内容的OCR双层文件生成方法。

背景技术

近年来,数字经济快速发展成为中国经济发展的新动能,越来越多的数据通过网络交换并保存。版式文档是网络时代的“数字纸张”,指区别于流式文档,在跨平台、多系统下维持固定模式的办公文档,如pdf,ofd等。随着数字经济的成熟化发展,企业对数据信息安全的重视程度不断上升。对版式文件进行电子签名,区块链等安全相关技术飞速发展。

已存在的电子数据(文件)中,有很大一部分是图片形式,而对数据进行进一步处理,分析,应用的计算机程序(如搜索引擎,数据分析,OA系统等等)大部分主要使用的是文本信息,OCR技术应运而生。OCR,光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。

传统技术下OCR流程为,扫描版式文件内容,生成文本信息,然后在原版式文件基础上,加一层透明文字层,将文本信息结果按照识别的符号位置对原图像层进行遮罩。这样就形成”双层“文件,底层是原数据层(图像),上层是透明文字层,人或程序使用时,主要通过文字层直接抽取相关文本信息使用。这种方式很好的解决了图像文件的后续程序难以分析的问题,但同时也引入了一个致命的安全问题:这种做法从数据层面改变了原生文件数据,数据合法性无法得到保障,如果原文件有电子签名或使用区块链记录,均会导致文件验证不通过,原生文件的合法性完全丧失。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题,本发明提出一种保留原生内容的OCR双层文件生成方法,以克服现有相关技术所存在的上述技术问题。

为此,本发明采用的具体技术方案如下:

一种保留原生内容的OCR双层文件生成方法,该方法包括以下步骤:

对原生文件进行计算、光学字符识别(OCR)及存储;

获取待使用文件,记录文件id(fileId);

根据所述文件的id与页码,读取对应的OCR结果;

根据用户需求,返回不同类型结果。

进一步的,所述对原生文件进行计算、OCR及存储包括以下步骤:

从数据库种读取文件id;

按顺序抽取原生文件中的每一个页面;

识别并记录当前页面内容的版式,保存入库;

对当前页面内容进行OCR,保存入库;

合并识别结果与OCR结果;

若原生文件存在下一页,则继续进行页面识别与OCR。

进一步的,所述当前页面的版式包括当前页面的页码、宽及高。

进一步的,所述对当前页面内容进行OCR包括以下步骤:

利用场景文字识别(EAST)算法对当前页面内容进行文字检测;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云档信息科技有限公司,未经南京云档信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210109987.5/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top