[发明专利]一种基于机器学习的论文碎片化信息抽取方法在审

专利信息
申请号: 201810347430.9 申请日: 2018-04-18
公开(公告)号: CN108536683A 公开(公告)日: 2018-09-14
发明(设计)人: 段飞虎;吴盼盼;冯自强;张宏伟 申请(专利权)人: 同方知网数字出版技术股份有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62;G06N99/00
代理公司: 北京天奇智新知识产权代理有限公司 11340 代理人: 陈新胜
地址: 100084 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征向量 基于机器 信息抽取 机器学习模型 随机森林 碎片化 支持向量机模型 机器模型 机器学习 结构信息 数据分析 文本内容 信息分类 样本特征 预测目标 训练集 构建 学习 数据库 文本 保存 转换 分析 图片
【说明书】:

发明公开了一种基于机器学习的论文碎片化信息抽取方法,所述方法包括采用XPDF提取PDF的文本内容、图片及表格,并保存为xml形式;对xml中的段落文本进行数据分析,计算并提取出每个段落块para的特征向量,将每个para的特征向量转换为机器学习模型的特征向量,并根据机器模型的选择和精确度进行分析以选择合理的特征向量,然后通过获取到的段落的特征向量训练支持向量机模型和随机森林模型;根据机器学习模型的特征向量预测目标PDF文章的标题和结构信息,并以xml格式存入数据库中。该方法充分利用了机器学习在信息分类时的优点,选取样本特征构建训练集,并选择RF(随机森林)模型,从而完成基于机器学习的信息抽取。

技术领域

本发明涉及信息抽取技术领域,尤其涉及一种基于机器学习的论文碎片化信息抽取方法。

背景技术

现有随着互联网和信息技术的发展,大数据已经成为各个领域最热门的名词。面对海量的信息和数据资源,迅速获取其中潜在的、有用的知识是当今数据挖掘的重要方向。学术论文具有强烈的专业性和准确性,论文内的信息和数据在很多专业领域都能发挥极大的作用,能为许多应用技术提供底层的数据支持。因此抽取学术论文中的信息和数据是非常有意义的。

目前国内外的学术论文多以PDF格式进行存储,PDF文档内容抽取主要有两种方式,一种是通过分析PDF文档的格式,直接将其中内容抽取出来,进而获取有用的信息和数据,以下简称直接方法;另一种是将原PDF文档转换成其他文档格式,从而利用抽取中间文档内容的方法抽取PDF文档中的内容,再进一步获取有用的信息和数据,以下简称间接方法。直接方法主要分为基于规则和基于机器学习两大类,传统研究多是单独基于规则或机器学习进行PDF文档的抽取,以下简称单独方法。尽管在元数据分类抽取等方面取得了较大的成绩,但由于学术论文的格式过于复杂、繁多,上述单独方法在某些情况下的效果并不理想。并且传统研究大多只关注元数据的抽取,没有很好地给出论文的内容结构以及内容中的信息和数据。由前人的研究可以发现,单独方法在抽取元数据过程中时而效果特别突出,时而效果却很差。为此,提出了一种基于机器学习的间接提取方法。该方法充分发挥了充分发挥了机器学习算法的优点,具有较强的适应性,可以处理多种类型的文档,不需要专家提前制定规则,取得了比直接方法更优的抽取效果,且还获得了论文内容、结构等方面的信息数据。

发明内容

为解决上述技术问题,本发明的目的是提供一种基于机器学习的论文碎片化信息抽取方法。

本发明的目的通过以下的技术方案来实现:

一种基于机器学习的论文碎片化信息抽取方法,包括:

步骤A采用XPDF提取PDF的文本内容、图片及表格,并保存为xml形式;

步骤B对xml中的段落文本进行数据分析,计算并提取出每个段落块para的特征向量,将每个para的特征向量转换为机器学习模型的特征向量,并根据机器模型的选择和精确度进行分析以选择合理的特征向量,然后通过获取到的段落的特征向量训练支持向量机模型和随机森林模型;

步骤C根据机器学习模型的特征向量预测目标PDF文章的标题和结构信息,并以xml格式存入数据库中。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

该方法充分利用了机器学习在信息分类时的优点,选取样本特征构建训练集,并选择RF(随机森林)模型,从而完成基于机器学习的信息抽取。以随机森林训练模型为主,通过特定分布情况的论文格式的样本制定不同格式的机器学习模型,对论文的标题进行提取,使得对论文章节标题的提取具有较好的效果。

附图说明

图1是基于机器学习的论文碎片化信息抽取方法流程图;

图2是数据库中文章记录图;

图3是数据库中文章pdf转换为无标签的xml内容;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司,未经同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810347430.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top