[发明专利]一种基于政策性资源汇聚的互联网科技金融智能匹配方法在审

专利信息
申请号: 201910318616.6 申请日: 2019-04-19
公开(公告)号: CN110321471A 公开(公告)日: 2019-10-11
发明(设计)人: 涂小东;李凯;黄丽;陈伟;王军;李毅光 申请(专利权)人: 四川政资汇智能科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/35;G06F16/335
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 李英
地址: 610000 四川省成都市高*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 有效文本 质检 抓取 分类 目标关键词 关键词库 目标网页 人工分类 网络爬虫 智能匹配 文本 互联网 筛选 汇聚 分类处理 分类结果 匹配客户 智能分类 预分析 客户 过滤 金融 网页 发送 应用
【说明书】:

发明公开了一种基于政策性资源汇聚的互联网科技金融智能匹配方法,包括以下步骤:S1、建立关键词库,导入设定的目标关键词;S2、设立网络爬虫,根据关键词库中的目标关键词进行网页目标抓取,获得目标网页文本;S3、对网络爬虫抓取的目标网页文本进行文本预分析和过滤,筛选出有效文本;S4、对筛选出的有效文本进行分类处理,然后传至质检单元进行分类质检;S5、将分类质检通过的有效文本按照其分类发送给对应的客户,将分类质检不通过的有效文本进行人工分类,再发送至人工分类后对应的客户。其应用时,可以实现互联网政策性资源的精准高效收集,并对收集的政策性资源精准智能分类,然后根据分类结果对应发送给匹配客户。

技术领域

本发明涉及数据分析处理技术领域,具体涉及一种基于政策性资源汇聚的互联网科技金融智能匹配方法。

背景技术

互联网应用遍及生活的方方面面,如即时通讯、社交网络、新闻网站、智能生活家电等,我们已经习惯依赖互联网提供便捷的信息去了解世界、形成人际社交网络,网络交互过程中生成的信息大多是文本形式。文本信息成为互联网社交媒体信息的重要承载者。

现有技术还没有专门针对互联网金融行业提供政策性资源收集匹配的有效技术手段。

发明内容

本发明针对现有技术存在的不足,提供一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其应用时,可以实现互联网政策性资源的精准高效收集,并对收集的政策性资源精准智能分类,然后根据分类结果对应发送给匹配客户。

本发明通过以下技术方案实现:

一种基于政策性资源汇聚的互联网科技金融智能匹配方法,包括以下步骤:

S1、建立关键词库,在关键词库中导入设定的目标关键词;

S2、设立网络爬虫,将其与关键词库关联,并放入网络中根据关键词库中的目标关键词进行网页目标抓取,获得目标网页文本;

S3、对网络爬虫抓取的目标网页文本进行文本预分析和过滤,筛选出有效文本;

S4、对筛选出的有效文本进行分类处理,然后传至质检单元进行分类质检;

S5、将分类质检通过的有效文本按照其分类发送给对应的客户,将分类质检不通过的有效文本进行人工分类,再发送至人工分类后对应的客户。

优选地,在步骤S1中,关键词库包括主词库和目标词库,主词库用于存储历史关键词数据,目标词库用于导入目标关键词,步骤S2中的网络爬虫与目标词库进行关联。

优选地,在步骤S1中,目标词库中的目标关键词由客户提供或/和从主词库中选取,其包括但不仅限于政府组织机构名称、领域人物名称、领域协会商会名称、互联网科技金融行业名词。

优选地,在步骤S2中,目标网页文本抓取的步骤包括:

S21、将目标关键词设定为网络爬虫的抓取种子;

S22、采用基于目标网页特征、基于目标数据模式和基于领域概念并行的方式根据抓取种子抓取互联网目标网页文本;

S23、将抓取的目标网页文本进行反馈,并集中存储。

优选地,在步骤S2中,所述网络爬虫包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。

优选地,在步骤S3中,筛选有效文本的步骤包括:

S31、对所有目标网页文本进行重复率检索,对内容重复率达到设定阈值的多个目标网页文本进行提取;

S32、将提取出的多个目标网页文本进行字数比对,留下字数最多的一个,其余丢弃;

S33、建立敏感词库,利用敏感词库对未提取和提取比对留下的目标网页文本进行敏感词句检索;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川政资汇智能科技有限公司,未经四川政资汇智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910318616.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top