[发明专利]一种基于大数据的政策采集、清洗及自动精准推送的方法在审

专利信息
申请号: 202110808022.0 申请日: 2021-07-16
公开(公告)号: CN113407805A 公开(公告)日: 2021-09-17
发明(设计)人: 党文锐;王庆雷;冯兆红;黄德凤;田龙美;桑婷;陈明辉 申请(专利权)人: 山东北斗科技信息咨询有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06F16/9535;G06F16/215
代理公司: 济南誉琨知识产权代理事务所(普通合伙) 37278 代理人: 庞庆芳
地址: 252000 山东省聊*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 政策 采集 清洗 自动 精准 推送 方法
【权利要求书】:

1.一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,包括以下有效步骤:

a、首先根据以往政府政策的内容提取关键词,构建关键词集,其中,所述关键词集包括主题关键词集和约束关键词集;

b、将政府的相关网站加入到初始地址URL种子集;

c、利用主题关键词集中的关键词形成主题爬虫,从初始地址URL种子集开始,分析爬行网页的主题相关度,将与主题相关的网页存储到数据库中;

d、分析数据库内网页的文本内容,根据约束关键词集内的关键词将含有关键词的句子提取出来;

e、根据约束关键词集对提取出来含有关键词的句子进行分析,获取关键约束属性集;

f、根据约束关键词集构建含有企业信息的企业推荐属性集;

g、将获取的关键约束属性集和企业推荐属性集进行一一比对,确定只有企业推荐属性集内的所有属性与关键约束属性集中的所有约束属性都匹配成功时,则将含有此关键约束属性集的网页推送给企业。

2.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述c步骤,当网络爬虫对URL种子集内网页进行爬取时,先搜索完一个种子网页内所有连接,然后在搜索下一层所有链接,返回执行下下一层的搜索,直到最底层。

3.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述d步骤中,包括以下有效步骤:

d1、首先选取适当的分隔符对网页的文本内容的句子分割成句子集P={S1,...SN},其中N为句子的总数;

d2、然后将每个句子进行分词,得到当前句子的分词集Si={wi1,....,wim},其中m为当前句子分词集的词语总数;

d3、根据公式:

Ass(k,Si)=|wk|wk∈Siwk∈k|

其中,Ass(KW,Si)为关键词和当前句子的关联度;将含有关键词的句子提取出来。

4.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述关键约束属性集和企业推荐属性集均包括属性名称和属性值。

5.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述g步骤中,根据杜威十进制分类法的特征确定关键约束属性集和企业推荐属性集中企业所属的领域属性。

6.根据权利要求5所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,根据杜威十进制分类法查找约束关键词集内以及企业推荐属性集内关键词的分类号,然后运用杜威十进制分类法的关键词号码的长度作为X轴,关键词分类号码作为Y轴,将关键约束属性集和企业推荐属性集内关键词对应的杜威十进制分类号码在二维坐标绘制相应的点,若企业推荐属性集内关键词所形成的点在关键约束属性集内关键词点的附近或重合,则判断领域属性匹配成功,若远离,则领域属性匹配不成功。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东北斗科技信息咨询有限公司,未经山东北斗科技信息咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110808022.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top