[发明专利]一种基于文档表格文本提取方法在审

专利信息
申请号: 202211197789.5 申请日: 2022-09-29
公开(公告)号: CN115496043A 公开(公告)日: 2022-12-20
发明(设计)人: 孙涛;马国华;赵博;崔力飞;张兴隆;韩丽霞;王云 申请(专利权)人: 鼎蓝惠民信息技术(西安)有限公司
主分类号: G06F40/174 分类号: G06F40/174;G06F40/18;G06F16/35
代理公司: 西安弘理专利事务所 61214 代理人: 王敏强
地址: 710061 陕西省西安市*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文档 表格 文本 提取 方法
【说明书】:

发明公开了一种基于文档表格文本提取方法,首先将待处理的word文档上传到系统服务器,系统服务器根据导入文件个数随机给每个文件分配一个文件编号,系统服务器将文件编号、文件名称、文件大小、文件存放位置、文件格式存放到数据库中;然后创建目标文件excel并初始化;通过文件编号从数据库中获取word文档存放位置、文件名称、文件格式在内的信息并写入目标文件Excel中;利用Java读取数据流的方式获得原word文档中所有的表格内容;然后填充,循环执行,直到将原word文件循环完毕;最后将目标文件excel导出。本发明解决了现有技术中存在的人工整合工作量较大、时间紧、效率低以及准确性较差的问题。

技术领域

本发明属于数据质量检测技术领域,具体涉及一种基于文档表格文本提取方法。

背景技术

基于政务服务评估指标体系、国家基本目录及实施清单要素标准要求,精益化梳理过程中,不同事项需要的办事申请表模板不尽相同,不同部门均有自己定制化要求,群众办事需填写各种表单,基本信息重复填写,费事费力,导致办事效率低、办事体验感极差。现在需要将不同格式申请表整合为一份,提取公共部分,保留个性化信息。

目前纯人工整合申请表工作量较大、时间较紧,新老员工工作效率相差较大,缺少经验继承,结果分享等方法和工具;缺少数据工作指引、来源查找工具,缺少数据结果审核、纠错等工具,共享难,改造难,导致行政效能改革缓慢,不利于营商环境的优化。

发明内容

本发明的目的是提供一种基于文档表格文本提取方法,解决了现有技术中存在的人工整合工作量较大、时间紧、效率低以及准确性较差的问题。

本发明所采用的技术方案是,一种基于文档表格文本提取方法,具体按照以下步骤实施:

步骤1、将待处理的word文档上传到系统服务器,系统服务器根据导入文件个数随机给每个文件分配一个文件编号,系统服务器将文件编号、文件名称、文件大小、文件存放位置、文件格式存放到数据库中;

步骤2、创建目标文件excel,并初始化;

步骤3、通过文件编号从所述步骤1的数据库中获取步骤1中所述的word文档存放位置、文件名称、文件格式在内的信息;

步骤4、将通过步骤3获取的文件名称写入步骤2中所述的目标文件Excel中;

步骤5、利用Java读取数据流的方式通过步骤3获取的文件存放路径获得步骤1中的原word文档中所有的表格内容;

步骤6、将步骤5中所述的表格内容按照业务规则分为“表单项名称”、“选项名称”、“单位名称”三类,然后分别填充到步骤2所述的目标Excel中的第三行开始的列标columnIndex、columnIndex+1、columnIndex+2对应的单元格中;

步骤7、将步骤2初始化定义的列标columnIndex赋值为columnIndex+3,继续从步骤3~步骤6开始循环执行,直到将步骤1中所上传的原word文件循环完毕;

步骤8、将所述步骤2中的目标文件excel以“x份表单提取+时间戳.xls”的命名方式导出。

本发明的特点还在于,

步骤2具体按照以下步骤实施:

步骤2.1、创建目标文件excel,行和列暂不填充,为后面步骤做准备;

步骤2.2、自定义目标文件excel的起始列标columnIndex初始值为0,其他列列标依次+1的方式进行赋值;

步骤2.3、自定义目标文件excel的起始行标rowIndex初始值为3,其他行依次+1的方式进行赋值;

步骤4具体按照以下步骤实施:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎蓝惠民信息技术(西安)有限公司,未经鼎蓝惠民信息技术(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211197789.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top