[发明专利]一种基于PDF文件的知识元抽取方法、设备及介质在审
申请号: | 202110852236.8 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113722278A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 邱瀚;董志勇;于文才;杜志诚;张亚宁;郭苏鸣 | 申请(专利权)人: | 山东旗帜信息有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/33;G06F40/205;G06F40/295;G06K9/34 |
代理公司: | 济南千慧专利事务所(普通合伙企业) 37232 | 代理人: | 左建华 |
地址: | 250000 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pdf 文件 知识 抽取 方法 设备 介质 | ||
1.一种基于PDF文件的知识元抽取方法,其特征在于,所述方法包括:
确认PDF解析器,使用所述PDF解析器解析待抽取文件,得到所述待抽取文件的解析数据;
根据所述解析数据,得到所述待抽取文件的知识结构化信息;
获取所述待抽取文件中各个元素的排列顺序,根据所述排列顺序对所述知识结构化信息进行排列存储。
2.根据权利要求1所述的方法,其特征在于,确认PDF解析器之前,所述方法还包括:
确认多个PDF文件的知识抽取范围;
按照所述知识抽取范围将所述多个PDF文件进行拆分、降噪,得到所述待抽取文件;
所述解析数据包括基础信息、抽取信息;
所述基础信息包括所述待抽取文件的文件名称、路径、创建时间、修改时间;抽取信息,包括所述待抽取文件中每页的元素;
所述元素包括文本数据、图片数据、图表数据、实体及实体关系。
3.根据权利要求1所述的方法,其特征在于,根据所述解析数据,得到所述待抽取文件的知识结构化信息,具体包括:
对所述待抽取文件每页中不同类型的所述元素进行分类;
确定所述元素为文本数据,将所述文本数据提取并保存;
确定所述元素为图片数据,提取并保存所述图片数据,对所述图片进行文字识别,提取并保存所述图片包含的文本数据;
确定所述元素为图表数据,解析所述图表数据包含的不同子元素:
若所述子元素为文本数据,将所述文本数据提取并保存;
若所述子元素为图片数据,提取并保存所述图片数据,对所述图片进行文字识别,提取并保存所述图片包含的文本数据。
4.根据权利要求3所述的方法,其特征在于,得到所述待抽取文件的知识结构化信息之后,所述方法还包括:
整合所述待抽取文件内的所述文本数据,得到所述待抽取文件对应的文本库;
根据所述文本数据在多个所述PDF文件中的位置对所述文本库内的文本数据进行记录。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述文本库内的所述文本数据进行实体识别,确认所述文本数据的预设实体关系类型;
根据所述预设实体关系类型对所述文本数据进行分类;
若所述图片数据中提取到的文本数据的数量低于预设阈值,则将所述图片标记,以方便对所述图片进行人工分类。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述文本库内的所述文本数据提取关键字,作为所述PDF文件的关键字;
确认输入的检索词,获取所述检索词的文本内容;
确定所述多个PDF文件的所述关键字与所述检索词的相关等级,并按照所述相关等级对所述PDF文件进行排序。
7.根据权利要求1所述的方法,其特征在于,得到所述待抽取文件的知识结构化信息之后,所述方法还包括:
确认所述知识结构化信息存在重复文本数据,对所述重复文本数据进行标记。
8.根据权利要求7所述的方法,其特征在于,确认所述知识结构化信息存在重复文本数据,具体包括:
确定所述知识结构化信息内各文本数据的字段值的相同个数大于预设个数,将所述文本数据记录作为重复文本数据记录输出。
9.一种基于PDF文件的知识元抽取设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:
确认PDF解析器,使用所述PDF解析器解析待抽取文件,得到所述待抽取文件的解析数据;
根据所述解析数据,得到所述待抽取文件的知识结构化信息;
获取所述待抽取文件中各个元素的排列顺序,根据所述排列顺序对所述知识结构化信息进行排列存储。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
确认PDF解析器,使用所述PDF解析器解析待抽取文件,得到所述待抽取文件的解析数据;
根据所述解析数据,得到所述待抽取文件的知识结构化信息;
获取所述待抽取文件中各个元素的排列顺序,根据所述排列顺序对所述知识结构化信息进行排列存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东旗帜信息有限公司,未经山东旗帜信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110852236.8/1.html,转载请声明来源钻瓜专利网。