[发明专利]一种基于电力技术杂志论文非结构化数据提取的方法及系统在审
申请号: | 201810600133.0 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108874990A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 亓富军 | 申请(专利权)人: | 亓富军 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/00 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 276002 山东省临沂市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据处理技术领域,公开了一种基于电力技术杂志论文非结构化数据提取的方法及系统,数据提取系统包括:输入模块、搜索模块、大数据分析模块、提取模块、数据存储模块。本发明通过搜索模块根据属性参数对应的实体标识生成新的搜索结果并提供,即由于属性参数可作为一个实体,通过将实体转换为实体标识,根据实体标识的唯一性,获得与其对应的搜索结果,彻底解决了实体重名、长搜索词的部分匹配等的问题,提高了搜索结果的精确度,提升了数据提取效率;同时通过大数据分析模块可以有效地减少查询的响应时间,可以快速的分析论文数据元素,提高数据提取速度。 | ||
搜索关键词: | 实体标识 数据提取 搜索结果 非结构化数据 电力技术 分析模块 属性参数 搜索模块 杂志论文 大数据 数据处理技术 数据存储模块 有效地减少 唯一性 输入模块 数据元素 提取模块 搜索词 匹配 查询 响应 转换 分析 | ||
【主权项】:
1.一种基于电力技术杂志论文非结构化数据提取的方法,其特征在于,所述基于电力技术杂志论文非结构化数据提取的方法包括:通过搜索模块搜索论文内容关键数据信息;通过大数据分析模块对本地的论文数据集进行相应的分析和处理后在数据库中构建论文引用网络,对论文内容及相关论文进行分析;通过提取模块初始化数据存储模块,Pareto前沿点数量小于预设数值R,则直接将所有点存入数据存储模块中;Pareto前沿点数量大于预设数值,根据公式(5)
计算所有Pareto前沿点的拥挤距离,从拥挤距离最小的点开始逐一删除,直至备选存入数据存储模块的Pareto前沿点数量与预设数值相等;然后将这些前沿点存放在数据存储模块中;再提取论文作者信息、摘要、关键字核心数据信息;式中,n表示目标函数的个数,di表示第i个字符对象的在种群中的拥挤距离,
表示种群中第m个目标函数取得的最大值,
表示种群中第m个目标函数取得的最小值,
和
是第i个字符对象在第m维两侧最临近点的第m个目标函数值,其中
通过数据存储模块将提取到的作者信息、摘要、关键字的核心数据信息进行存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亓富军,未经亓富军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810600133.0/,转载请声明来源钻瓜专利网。
- 上一篇:信息查询方法及装置
- 下一篇:一种基于水准路线分布图的海量水准点坐标修正方法