[发明专利]一种用于期刊PDF文件中文章内容的解析方法在审
申请号: | 201810700654.3 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108959254A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 胡利鹏 | 申请(专利权)人: | 中教汇据(北京)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 北京智客联合知识产权代理事务所(特殊普通合伙) 11700 | 代理人: | 李戍 |
地址: | 102400 北京市房山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章内容 解析 期刊 接合 标点 读取 中图分类号 参数预设 常规格式 单位信息 内容解析 内容片段 容错处理 文字内容 转接 标志码 分栏 乱码 分隔 抽取 参考 申请 发现 | ||
本发明属于内容解析方法,具体涉及一种用于期刊PDF文件中文章内容的解析方法。它包括:解析参数预设值的步骤;读取PDF文字内容的步骤;整理并接合的步骤;以及形成文章列表的步骤。本申请的显著效果是:本发明提供了一种用于期刊PDF文件中文章内容的解析方法,抽取文章内容片段:标题、作者、单位信息、摘要、关键词、中图分类号、文献标志码、文章编号、正文、参考文献。解析发现分栏、分隔的内容片段、顺序转接的接合文章内容。对关键词临近的个别标点乱码具有容错处理,对大部分常规格式期刊中文献文章片段具有识别处理。
技术领域
本发明属于内容解析方法,具体涉及一种用于期刊PDF文件中文章内容的解析方法。
背景技术
在文件处理技术领域,已存在针对PDF文件内容的读取技术,比如现有工具中PDFBox、iText、iTextSharp都可以读取PDF文档中文本内容,也有不少关于PDF内容识别的专利文献,主要包括字符识别和提取类(CN200710177673.4、CN200910076809.1、CN201210455707.2、CN201710760650.X、CN201710067220.X、CN201310088513.8),图表识别和提取类(CN201710095978.4、CN201610887631.9、CN201610025529.8、CN201210142082.4、CN201010293736.4、CN201710209497.1),文档格式转换类(CN201010136399.8、CN201110213555.0、CN201010206401.4、CN201510386691.8、CN201110377021.1),其他类(CN201210163436.3、CN201710576555.4)。这些对PDF文档进行识别和处理的技术大大方便了科技人员对文档的阅读和处理。
但是现有技术仍存在不可克服的缺陷,主要集中在不能直接对期刊PDF文件中文章内容的特定信息片段抽取。具体的说,当PDF文档中存在大体版面格式,且文档中存在分栏和片段转接和情况时,现有技术的处理都会出现这样或者那样的错误。如果PDF文档中存在图表公式或特别字符,或者由于PDF压缩时产生的文字行高不一致的情况,现有技术更加无法对文章进行处理,造成文本片段内容的读取难度,容易引起读取的文章内容顺序错位的情况较多。
发明内容
本申请针对现有技术的缺陷,提供一种用于期刊PDF文件中文章内容的解析方法。
本申请是这样实现的:一种用于期刊PDF文件中文章内容的解析方法,包括下述步骤:
步骤一:解析参数预设值
针对学术期刊类文献解析和普通杂志类文章解析两类期刊,分别进行解析参数预设值;
步骤二:读取PDF文字内容
按页读取出PDF文件中的文字块,并且携带的起止位置坐标信息,将文字块存于字块列表中,在保存的时候,记录字符的起止点x坐标值,在后续处理中,根据起止点x坐标值,计算出字大小的特征;
步骤三:整理并接合
对步骤二读取的文字块逐级整理、接合,直到形成文章;
步骤九:形成文章列表
将前面步骤形成的文章插入文章列表,直到所有文字块都处理完毕。
如前所述的一种用于期刊PDF文件中文章内容的解析方法,其中,所述的步骤三包括整理、定位片段位置、划分片段范围、获取文章片段内容、划分PDF页内容类型、接合五个步骤,
其中,整理步骤包括构建字串,字串包括以常用词为单位的词,以及该词的起止(x,y)坐标值,构建时首先在字块中用文字的y值判断是否同行,同行文字构建在一个字串内,不同行的文字构建为不同字串,然后同行文字中以文字的x值判断文字顺序,按照x值的顺序构建字串,按照上述顺序整理全部字块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中教汇据(北京)科技有限公司,未经中教汇据(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810700654.3/2.html,转载请声明来源钻瓜专利网。