[发明专利]一种基于电力技术杂志论文非结构化数据提取的方法及系统在审
申请号: | 201810600133.0 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108874990A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 亓富军 | 申请(专利权)人: | 亓富军 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/00 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 276002 山东省临沂市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体标识 数据提取 搜索结果 非结构化数据 电力技术 分析模块 属性参数 搜索模块 杂志论文 大数据 数据处理技术 数据存储模块 有效地减少 唯一性 输入模块 数据元素 提取模块 搜索词 匹配 查询 响应 转换 分析 | ||
本发明属于数据处理技术领域,公开了一种基于电力技术杂志论文非结构化数据提取的方法及系统,数据提取系统包括:输入模块、搜索模块、大数据分析模块、提取模块、数据存储模块。本发明通过搜索模块根据属性参数对应的实体标识生成新的搜索结果并提供,即由于属性参数可作为一个实体,通过将实体转换为实体标识,根据实体标识的唯一性,获得与其对应的搜索结果,彻底解决了实体重名、长搜索词的部分匹配等的问题,提高了搜索结果的精确度,提升了数据提取效率;同时通过大数据分析模块可以有效地减少查询的响应时间,可以快速的分析论文数据元素,提高数据提取速度。
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于电力技术杂志论文非结构化数据提取的方法及系统。
背景技术
随着计算机技术和因特网的迅猛发展,网上查询、检索和下载专业数据已成为当前科技信息情报检索的重要手段,对于网上各类全文数据库或文摘数据库,论文摘要的索引是读者检索文献的重要工具,为科技情报文献检索数据库的建设和维护提供方便。摘要是对论文综合的介绍,使人了解论文阐述的主要内容。论文发表后,文摘杂志或各种数据库对摘要可以不作修改或稍作修改而直接利用,让读者尽快了解论文的主要内容,以补充题名的不足,从而避免他人编写摘要可能产生的误解、欠缺甚至错误。所以论文摘要的质量高低,直接影响着论文的被检索率和被引频次。然而,传统靠关键字匹配方式的搜索,无法解决部分匹配问题,从而导致搜索结果可能不精确,影响数据提取效率;同时,不能提供更多的关于论文之间发展脉络的信息,这导致了科研工作者不能够高效地获取科研资源,对论文数据分析速度慢。
传统靠关键字匹配方式的搜索,无法解决部分匹配问题,从而导致搜索结果可能不精确,影响数据提取效率;
同时,不能提供更多的关于论文之间发展脉络的信息,这导致了科研工作者不能够高效地获取科研资源,对论文数据分析速度慢。
在复杂数据环境下,随着融合特征维数不断增加经特征提取后的初始特征集维数可能很高,则特征之间必然存在信息冗余,其分类的效果变差;而现有特征提取技术中,都是在已有单目标优化技术的基础上,将最小化特征子集的规模作为另一个优化目标,但是特征子集的规模是一个离散目标,通常求得的解集中每个特征规模下只能对应一个解,这使得规模相同但具体特征不同的其它特征子集无法被发现。而这些特征子集维数也对于信号特征提取也是有用的。此外,多目标特征选择算法最终得到的是一系列的折中解,需要从中选取性能优良的解,但目前可用的无监督方法还较少。主要的难度在于:所设计的特征子集评价函数和搜索策略未能考虑特征子集的冗余性和相关性;评价准则也未考虑特征子集的维数的选取对分类有效性的影响;多目标优化算法的Pareto解集中无监督的方式提取特征维数与特征子集的重要度排序仍未解决。
发明内容
针对现有技术存在的问题,本发明提供了一种基于电力技术杂志论文非结构化数据提取的方法。
本发明是这样实现的,一种基于电力技术杂志论文非结构化数据提取的方法,包括:
通过输入模块输入论文的标题及论文路径;
通过搜索模块搜索论文内容关键数据信息;
通过大数据分析模块对本地的论文数据集进行相应的分析和处理后在数据库中构建论文引用网络,对论文内容及相关论文进行分析;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亓富军,未经亓富军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810600133.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息查询方法及装置
- 下一篇:一种基于水准路线分布图的海量水准点坐标修正方法