[发明专利]一种用于期刊PDF文件中文章内容的解析方法在审
申请号: | 201810700654.3 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108959254A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 胡利鹏 | 申请(专利权)人: | 中教汇据(北京)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 北京智客联合知识产权代理事务所(特殊普通合伙) 11700 | 代理人: | 李戍 |
地址: | 102400 北京市房山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于内容解析方法,具体涉及一种用于期刊PDF文件中文章内容的解析方法。它包括:解析参数预设值的步骤;读取PDF文字内容的步骤;整理并接合的步骤;以及形成文章列表的步骤。本申请的显著效果是:本发明提供了一种用于期刊PDF文件中文章内容的解析方法,抽取文章内容片段:标题、作者、单位信息、摘要、关键词、中图分类号、文献标志码、文章编号、正文、参考文献。解析发现分栏、分隔的内容片段、顺序转接的接合文章内容。对关键词临近的个别标点乱码具有容错处理,对大部分常规格式期刊中文献文章片段具有识别处理。 | ||
搜索关键词: | 文章内容 解析 期刊 接合 标点 读取 中图分类号 参数预设 常规格式 单位信息 内容解析 内容片段 容错处理 文字内容 转接 标志码 分栏 乱码 分隔 抽取 参考 申请 发现 | ||
【主权项】:
1.一种用于期刊PDF文件中文章内容的解析方法,其特征在于,包括下述步骤:步骤一:解析参数预设值针对学术期刊类文献解析和普通杂志类文章解析两类期刊,分别进行解析参数预设值;步骤二:读取PDF文字内容按页读取出PDF文件中的文字块,并且携带的起止位置坐标信息,将文字块存于字块列表中,在保存的时候,记录字符的起止点x坐标值,在后续处理中,根据起止点x坐标值,计算出字大小的特征;步骤三:整理并接合对步骤二读取的文字块逐级整理、接合,直到形成文章;步骤九:形成文章列表将前面步骤形成的文章插入文章列表,直到所有文字块都处理完毕。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中教汇据(北京)科技有限公司,未经中教汇据(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810700654.3/,转载请声明来源钻瓜专利网。