[发明专利]一种提取PDF文件结构化信息的方法及装置在审
申请号: | 202111113749.3 | 申请日: | 2021-09-23 |
公开(公告)号: | CN114510547A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 韩威宏;刘俊良;王怡君;周刚 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/166;G06F40/258 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种提取PDF文件结构化信息的方法及装置,主要解决现有技术中存在的现有方法存在的的消耗大量的人力、时间资源,且不能批量化处理,也没有对结构化信息进一步的处理。该一种提取PDF文件结构化信息的方法提取PDF文档的文本内容后,对其进行分割得到字符串组,然后遍历字符串组,添加前缀形成判别索引,再然后根据判别索引提取其结构化信息,实现结构化信息的自动提取,最后将结构化信息转化格式写入数据库。通过上述方案,本发明达到了节省人力物力,能批量处理PDF文件及形成了一套从PDF文档从非结构化数据到结构化数据的完整转化方法的目的。 | ||
搜索关键词: | 一种 提取 pdf 文件 结构 信息 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202111113749.3/,转载请声明来源钻瓜专利网。