[发明专利]一种保留原生内容的OCR双层文件生成方法在审
申请号: | 202210109987.5 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114463758A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 瞿欢;陈欣;姬辉;何鹏飞 | 申请(专利权)人: | 南京云档信息科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06N3/04 |
代理公司: | 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 | 代理人: | 孙丽君 |
地址: | 210000 江苏省南京市栖霞区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 保留 原生 内容 ocr 双层 文件 生成 方法 | ||
本发明公开了一种保留原生内容的OCR双层文件生成方法,该方法包括以下步骤:对原生文件进行计算、光学字符识别及存储;获取待使用文件,记录文件id;根据所述文件id与页码,读取对应的光学字符识别结果;根据用户需求,返回不同类型结果。通过单独存储版式文件格式信息和OCR结果信息,在不改变原始数据内容的前提下提供“双层”版式文件的使用,并且能灵活控制输出“双层”版式文件、“单文字层”版式文件和原生文件,从而不改变原始数据内容,原生文件原有的电子签名以及区块链信息等都不会改变,保证了数据的安全性和可靠性。
技术领域
本发明涉及文件处理技术领域,具体来说,涉及一种保留原生内容的OCR双层文件生成方法。
背景技术
近年来,数字经济快速发展成为中国经济发展的新动能,越来越多的数据通过网络交换并保存。版式文档是网络时代的“数字纸张”,指区别于流式文档,在跨平台、多系统下维持固定模式的办公文档,如pdf,ofd等。随着数字经济的成熟化发展,企业对数据信息安全的重视程度不断上升。对版式文件进行电子签名,区块链等安全相关技术飞速发展。
已存在的电子数据(文件)中,有很大一部分是图片形式,而对数据进行进一步处理,分析,应用的计算机程序(如搜索引擎,数据分析,OA系统等等)大部分主要使用的是文本信息,OCR技术应运而生。OCR,光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
传统技术下OCR流程为,扫描版式文件内容,生成文本信息,然后在原版式文件基础上,加一层透明文字层,将文本信息结果按照识别的符号位置对原图像层进行遮罩。这样就形成”双层“文件,底层是原数据层(图像),上层是透明文字层,人或程序使用时,主要通过文字层直接抽取相关文本信息使用。这种方式很好的解决了图像文件的后续程序难以分析的问题,但同时也引入了一个致命的安全问题:这种做法从数据层面改变了原生文件数据,数据合法性无法得到保障,如果原文件有电子签名或使用区块链记录,均会导致文件验证不通过,原生文件的合法性完全丧失。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种保留原生内容的OCR双层文件生成方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种保留原生内容的OCR双层文件生成方法,该方法包括以下步骤:
对原生文件进行计算、光学字符识别(OCR)及存储;
获取待使用文件,记录文件id(fileId);
根据所述文件的id与页码,读取对应的OCR结果;
根据用户需求,返回不同类型结果。
进一步的,所述对原生文件进行计算、OCR及存储包括以下步骤:
从数据库种读取文件id;
按顺序抽取原生文件中的每一个页面;
识别并记录当前页面内容的版式,保存入库;
对当前页面内容进行OCR,保存入库;
合并识别结果与OCR结果;
若原生文件存在下一页,则继续进行页面识别与OCR。
进一步的,所述当前页面的版式包括当前页面的页码、宽及高。
进一步的,所述对当前页面内容进行OCR包括以下步骤:
利用场景文字识别(EAST)算法对当前页面内容进行文字检测;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云档信息科技有限公司,未经南京云档信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210109987.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发动机文丘里管
- 下一篇:应用于量子密钥分发片上系统的相位调制单元
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法