[发明专利]PDF文字提取方法和装置有效
申请号: | 201711106231.0 | 申请日: | 2017-11-10 |
公开(公告)号: | CN108038093B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 晏检平 | 申请(专利权)人: | 深圳市亿图软件有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06K9/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 程晓 |
地址: | 518000 广东省深圳市南山区粤海街道高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pdf 文字 提取 方法 装置 | ||
1.一种PDF文字提取方法,其特征在于,包括:
获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息;
根据所述文本对象的字体信息判断所述文本对象的字体类型得到第一判断结果,根据所述文本对象的内嵌信息判断所述文本对象是否内嵌在所述PDF页面中得到第二判断结果;
若所述第一判断结果中所述文本对象的字体类型为第一字体类型,所述文本对象的字形位图进行OCR识别并得到所述文本对象的第一提取结果;
若所述第一判断结果中所述文本对象的字体类型为第二字体类型,且所述第二判断结果中所述文本对象不是内嵌在所述PDF页面中,则所述文本对象的第一编码为所述文本对象的第二提取结果;
若所述第一判断结果中所述文本对象的字体类型为第二字体类型,且所述第二判断结果中所述文本对象是内嵌在所述PDF页面中,所述文本对象的字形位图进行所述OCR识别并得到所述文本对象的第三提取结果。
2.如权利要求1所述的PDF文字提取方法,其特征在于,所述文本对象的字形位图进行OCR识别并得到所述文本对象的第一提取结果具体为:
所述文本对象的字形位图进行所述OCR识别得到所述文本对象的第二编码和第一识别可信度;
若所述文本对象的第一识别可信度大于预设的识别可信度阈值,则所述文本对象的第二编码为所述文本对象的第一提取结果;
若所述文本对象的第一识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第一提取结果。
3.如权利要求1所述的PDF文字提取方法,其特征在于,所述文本对象的字形位图进行所述OCR识别并得到所述文本对象的第三提取结果具体为:
所述文本对象的所述字形位图进行所述OCR识别得到所述文本对象的第三编码和第二识别可信度;
若所述文本对象的第二识别可信度大于预设的识别可信度阈值,则所述文本对象的第三编码为所述文本对象的第三提取结果;
若所述文本对象的第二识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第三提取结果。
4.如权利要求1所述的PDF文字提取方法,其特征在于,所述文本对象还包括:字号信息;
所述PDF页面包括至少一个所述文本对象,所述PDF页面的至少一个文本对象的内嵌信息、字体信息和字号信息构成文本对象列表;
所述方法还包括:
根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息导出相对应的文本对象的第一提取结果、第二提取结果和第三提取结果;根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息,对所述相对应的文本对象的第一提取结果、第二提取结果和第三提取结果进行排序以及聚类操作,进行所述PDF页面的版面重构。
5.一种PDF文字提取装置,其特征在于,包括:
PDF解析模块,用于获取PDF页面中的文本对象的第一编码、字形位图、内嵌信息、字体信息和字号信息;
判断模块,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型,还根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中;
控制模块,用于对属于所述第一字体类型的所述文本对象进行OCR识别并得到第一识别结果,还用于提取属于所述第二字体类型且不是内嵌在所述PDF页面中的所述文本对象的第一编码,并作为第二识别结果,还用于对属于所述第二字体类型且是内嵌在所述PDF页面中的所述文本对象进行所述OCR识别,并得到第三识别结果。
6.如权利要求5所述的PDF文字提取装置,其特征在于,所述判断模块包括:
第一判断单元,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型;
第二判断单元,用于根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市亿图软件有限公司,未经深圳市亿图软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711106231.0/1.html,转载请声明来源钻瓜专利网。