[发明专利]一种基于机器学习的论文碎片化信息抽取方法在审
申请号: | 201810347430.9 | 申请日: | 2018-04-18 |
公开(公告)号: | CN108536683A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 段飞虎;吴盼盼;冯自强;张宏伟 | 申请(专利权)人: | 同方知网数字出版技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N99/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征向量 基于机器 信息抽取 机器学习模型 随机森林 碎片化 支持向量机模型 机器模型 机器学习 结构信息 数据分析 文本内容 信息分类 样本特征 预测目标 训练集 构建 学习 数据库 文本 保存 转换 分析 图片 | ||
1.一种基于机器学习的论文碎片化信息抽取方法,其特征在于,所述方法包括以下步骤:
步骤A采用XPDF提取PDF的文本内容、图片及表格,并保存为xml形式;
步骤B对xml中的段落文本进行数据分析,计算并提取出每个段落块para的特征向量,将每个para的特征向量转换为机器学习模型的特征向量,并根据机器模型的选择和精确度进行分析以选择合理的特征向量,然后通过获取到的段落的特征向量训练支持向量机模型和随机森林模型;
步骤C根据机器学习模型的特征向量预测目标PDF文章的标题和结构信息,并以xml格式存入数据库中。
2.如权利要求1所述的基于机器学习的论文碎片化信息抽取方法,其特征在于,所述xml由一个根节点book构成,该book节点下包含两个子节点,分别是catalogs子节点和parts子节点。
3.如权利要求1所述的基于机器学习的论文碎片化信息抽取方法,其特征在于,利用支持向量机模型和随机森林模型并根据PDF论文的每个区域所包含的位置特征和字体特征,将论文中的每一个段落进行分类。
4.如权利要求1所述的基于机器学习的论文碎片化信息抽取方法,其特征在于,所述步骤B中提取的每个段落块para的特征向量包括:段落字体粗细、字体大小比例、字体风格、段前断后间距、首行文本缩进、文本块左边界坐标比例、文本块上边界坐标比例、文本块宽度比例、文本块高度比例、文本字体颜色、文字个数、文字密度、首字母大写以及页码比例。
5.如权利要求1或4所述的基于机器学习的论文碎片化信息抽取方法,其特征在于,将提取的每个段落块para的特征向量中不是数字的特征向量通过标记编码器转换成数字,从而获得特征向量的数组,不同的特征向量使用不同的标记编码器。
6.如权利要求1所述的基于机器学习的论文碎片化信息抽取方法,其特征在于,所述每个段落块para的特征向量的计算采用随机森林算法,该算法采用sklearn库中的算法模板进行训练。
7.如权利要求1所述的基于机器学习的论文碎片化信息抽取方法,其特征在于,所述机器学习模型为加强学习算法适应性,采用Online Learning模型训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司,未经同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810347430.9/1.html,转载请声明来源钻瓜专利网。