[发明专利]一种科技政策检索分析方法在审

申请号：	201810145105.4	申请日：	2018-02-12
公开（公告）号：	CN108491438A	公开（公告）日：	2018-09-04
发明（设计）人：	陆夏根	申请（专利权）人：	陆夏根
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q50/26
代理公司：	合肥天明专利事务所(普通合伙) 34115	代理人：	金凯
地址：	230001 安徽省合肥市***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种科技政策检索分析方法，属于数据分析技术领域，包括利用网络爬虫技术采集网站上与科技政策有关的网页内容，并将采集到的相关网页内容作为目标源数据；采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据，并从非结构化的网页数据中抽取科技政策信息数据；采用机器学习方法对该科技政策信息进行分类，并将分类后各类别的科技政策信息数据存储至数据库中；采用Lucene工具对数据库中的科技政策信息数据建立索引文件，并将索引文件存放于服务器；根据用户输入的搜索词，在所述索引文件中检索出相应的科技政策。通过整合各大网站的与科技政策相关的网页，解决了科技政策数据分布零散的问题。
搜索关键词：	科技政策检索非结构化索引文件网页内容网页数据信息数据目标源网站抽取数据库网页数据分析技术网络爬虫技术信息数据存储采集机器学习建立索引数据分布搜索词分类整合服务器分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种科技政策检索分析方法，其特征在于，包括：利用网络爬虫技术采集网站上与科技政策有关的网页内容，并将采集到的相关网页内容作为目标源数据；采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据，并从非结构化的网页数据中抽取科技政策信息数据；采用机器学习方法对该科技政策信息进行分类，并将分类后各类别的科技政策信息数据存储至数据库中；采用Lucene工具对数据库中的科技政策信息数据建立索引文件，并将索引文件存放于服务器；根据用户输入的搜索词，在所述索引文件中检索出相应的科技政策。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于陆夏根，未经陆夏根许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810145105.4/，转载请声明来源钻瓜专利网。

上一篇：一种基于Hadoop的海量Web数据挖掘遗传方法
下一篇：一种基于历史数据统计特性的遥测缓变参数自动判读方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种科技政策检索分析方法在审

专利文献下载