[发明专利]一种基于大数据的政策采集、清洗及自动精准推送的方法在审
申请号: | 202110808022.0 | 申请日: | 2021-07-16 |
公开(公告)号: | CN113407805A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 党文锐;王庆雷;冯兆红;黄德凤;田龙美;桑婷;陈明辉 | 申请(专利权)人: | 山东北斗科技信息咨询有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/9535;G06F16/215 |
代理公司: | 济南誉琨知识产权代理事务所(普通合伙) 37278 | 代理人: | 庞庆芳 |
地址: | 252000 山东省聊*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 政策 采集 清洗 自动 精准 推送 方法 | ||
1.一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,包括以下有效步骤:
a、首先根据以往政府政策的内容提取关键词,构建关键词集,其中,所述关键词集包括主题关键词集和约束关键词集;
b、将政府的相关网站加入到初始地址URL种子集;
c、利用主题关键词集中的关键词形成主题爬虫,从初始地址URL种子集开始,分析爬行网页的主题相关度,将与主题相关的网页存储到数据库中;
d、分析数据库内网页的文本内容,根据约束关键词集内的关键词将含有关键词的句子提取出来;
e、根据约束关键词集对提取出来含有关键词的句子进行分析,获取关键约束属性集;
f、根据约束关键词集构建含有企业信息的企业推荐属性集;
g、将获取的关键约束属性集和企业推荐属性集进行一一比对,确定只有企业推荐属性集内的所有属性与关键约束属性集中的所有约束属性都匹配成功时,则将含有此关键约束属性集的网页推送给企业。
2.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述c步骤,当网络爬虫对URL种子集内网页进行爬取时,先搜索完一个种子网页内所有连接,然后在搜索下一层所有链接,返回执行下下一层的搜索,直到最底层。
3.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述d步骤中,包括以下有效步骤:
d1、首先选取适当的分隔符对网页的文本内容的句子分割成句子集P={S1,...SN},其中N为句子的总数;
d2、然后将每个句子进行分词,得到当前句子的分词集Si={wi1,....,wim},其中m为当前句子分词集的词语总数;
d3、根据公式:
Ass(k,Si)=|wk|wk∈Siwk∈k|
其中,Ass(KW,Si)为关键词和当前句子的关联度;将含有关键词的句子提取出来。
4.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述关键约束属性集和企业推荐属性集均包括属性名称和属性值。
5.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述g步骤中,根据杜威十进制分类法的特征确定关键约束属性集和企业推荐属性集中企业所属的领域属性。
6.根据权利要求5所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,根据杜威十进制分类法查找约束关键词集内以及企业推荐属性集内关键词的分类号,然后运用杜威十进制分类法的关键词号码的长度作为X轴,关键词分类号码作为Y轴,将关键约束属性集和企业推荐属性集内关键词对应的杜威十进制分类号码在二维坐标绘制相应的点,若企业推荐属性集内关键词所形成的点在关键约束属性集内关键词点的附近或重合,则判断领域属性匹配成功,若远离,则领域属性匹配不成功。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东北斗科技信息咨询有限公司,未经山东北斗科技信息咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110808022.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置