[发明专利]一种基于大数据的政策采集、清洗及自动精准推送的方法在审
申请号: | 202110808022.0 | 申请日: | 2021-07-16 |
公开(公告)号: | CN113407805A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 党文锐;王庆雷;冯兆红;黄德凤;田龙美;桑婷;陈明辉 | 申请(专利权)人: | 山东北斗科技信息咨询有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/9535;G06F16/215 |
代理公司: | 济南誉琨知识产权代理事务所(普通合伙) 37278 | 代理人: | 庞庆芳 |
地址: | 252000 山东省聊*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 政策 采集 清洗 自动 精准 推送 方法 | ||
本发明属于有计算机应用技术领域,尤其涉及一种基于大数据的政策采集、清洗及自动精准推送的方法。本发明根据政策文件的特性,整理出相应的关键词,然后,利用网络爬虫的爬取相关的政策文献并对政策文献的进行分析,结合企业的基本信息,形成信息匹配,进而实现对企业的政策精准推送,为企业解决最后一公里的问题,让更多的企业、人才获得政策红利。同时,本发明方法简单、操作方便,适合大规模推广使用。
技术领域
本发明属于有计算机应用技术领域,尤其涉及一种基于大数据的政策采集、清洗及自动精准推送的方法。
背景技术
企业的发展必须广泛的了解国家和地方以及行业协会的相应政策要求,这样才能遵守国家法律制度、了解行业运行规则、充分运用政策红利、做大做强企业主体、提升企业的市场竞争力,为企业发展保驾护航。
随着《优化营商环境条例》的正式实施,在政策服务方面明确指出了政府部门要不断完善政策措施,落实政策惠及企业、人才主体。虽然优惠政策种类繁多,但是各种政策相对分散、申报条件迥异、信息不对称等各种问题,让不少企业、人才错失好政策,不能获得真正的扶持,政策俨然成了摆设,使得企业、人才颇为失望。为完成政策服务的“最后一公里”,让更多的企业、人才获得政策红利,如何从海量的数据中,真正把政策红利释放出来,使得他们可以解决后顾之忧,让企业获得更多优惠、让人才安于创新、专于创业,成为信息技术处理领域重要的研究方向。
发明内容
本发明针对上述的政策的精准推送所存在的计算问题,提出一种设计合理、方法简单、操作方便且能够实现政策对相应企业实现精准推送的一种基于大数据的政策采集、清洗及自动精准推送的方法。
为了达到上述目的,本发明采用的技术方案为,本发明提供一种基于大数据的政策采集、清洗及自动精准推送的方法,包括以下有效步骤:
a、首先根据以往政府政策的内容提取关键词,构建关键词集,其中,所述关键词集包括主题关键词集和约束关键词集;
b、将政府的相关网站加入到初始地址URL种子集;
c、利用主题关键词集中的关键词形成主题爬虫,从初始地址URL种子集开始,分析爬行网页的主题相关度,将与主题相关的网页存储到数据库中;
d、分析数据库内网页的文本内容,根据约束关键词集内的关键词将含有关键词的句子提取出来;
e、根据约束关键词集对提取出来含有关键词的句子进行分析,获取关键约束属性集;
f、根据约束关键词集构建含有企业信息的企业推荐属性集;
g、将获取的关键约束属性集和企业推荐属性集进行一一比对,确定只有企业推荐属性集内的所有属性与关键约束属性集中的所有约束属性都匹配成功时,则将含有此关键约束属性集的网页推送给企业。
作为优选,所述c步骤,当网络爬虫对URL种子集内网页进行爬取时,先搜索完一个种子网页内所有连接,然后在搜索下一层所有链接,返回执行下下一层的搜索,直到最底层。
作为优选,所述d步骤中,包括以下有效步骤:
d1、首先选取适当的分隔符对网页的文本内容的句子分割成句子集P={S1,...SN},其中N为句子的总数;
d2、然后将每个句子进行分词,得到当前句子的分词集Si={wi1,....,wim},其中m为当前句子分词集的词语总数;
d3、根据公式:
Ass(k,Si)=|wk|wk∈Siwk∈k|
其中,Ass(KW,Si)为关键词和当前句子的关联度;将含有关键词的句子提取出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东北斗科技信息咨询有限公司,未经山东北斗科技信息咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110808022.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置