[发明专利]一种基于政策性资源汇聚的互联网科技金融智能匹配方法在审

专利信息
申请号: 201910318616.6 申请日: 2019-04-19
公开(公告)号: CN110321471A 公开(公告)日: 2019-10-11
发明(设计)人: 涂小东;李凯;黄丽;陈伟;王军;李毅光 申请(专利权)人: 四川政资汇智能科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/35;G06F16/335
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 李英
地址: 610000 四川省成都市高*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 有效文本 质检 抓取 分类 目标关键词 关键词库 目标网页 人工分类 网络爬虫 智能匹配 文本 互联网 筛选 汇聚 分类处理 分类结果 匹配客户 智能分类 预分析 客户 过滤 金融 网页 发送 应用
【权利要求书】:

1.一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,包括以下步骤:

S1、建立关键词库,在关键词库中导入设定的目标关键词;

S2、设立网络爬虫,将其与关键词库关联,并放入网络中根据关键词库中的目标关键词进行网页目标抓取,获得目标网页文本;

S3、对网络爬虫抓取的目标网页文本进行文本预分析和过滤,筛选出有效文本;

S4、对筛选出的有效文本进行分类处理,然后传至质检单元进行分类质检;

S5、将分类质检通过的有效文本按照其分类发送给对应的客户,将分类质检不通过的有效文本进行人工分类,再发送至人工分类后对应的客户。

2.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S1中,关键词库包括主词库和目标词库,主词库用于存储历史关键词数据,目标词库用于导入目标关键词,步骤S2中的网络爬虫与目标词库进行关联。

3.根据权利要求2所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S1中,目标词库中的目标关键词由客户提供或/和从主词库中选取,其包括但不仅限于政府组织机构名称、领域人物名称、领域协会商会名称、互联网科技金融行业名词。

4.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S2中,目标网页文本抓取的步骤包括:

S21、将目标关键词设定为网络爬虫的抓取种子;

S22、采用基于目标网页特征、基于目标数据模式和基于领域概念并行的方式根据抓取种子抓取互联网目标网页文本;

S23、将抓取的目标网页文本进行反馈,并集中存储。

5.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S2中,所述网络爬虫包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。

6.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S3中,筛选有效文本的步骤包括:

S31、对所有目标网页文本进行重复率检索,对内容重复率达到设定阈值的多个目标网页文本进行提取;

S32、将提取出的多个目标网页文本进行字数比对,留下字数最多的一个,其余丢弃;

S33、建立敏感词库,利用敏感词库对未提取和提取比对留下的目标网页文本进行敏感词句检索;

S34、将检索到含有敏感词句的目标网页文本清除,剩余的目标网页文本为有效文本。

7.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S4中,有效文本的分类处理过程包括:

S41、对有效文本的目标关键词进行分词提取,然后对目标关键词的词频、词序和语义进行设定评分统计;

S42、根据词频、词序和语义的综合评分进行排序,选取前N个综合评分最高的目标关键词作为词向量,其中N为大于0的整数;

S43、将词向量导入预先建立的文本分类训练模型,进行自动分类,得到有效文本的自动分类结果;

S44、根据分类结果对有效文本进行分类标记,然后传送至质检单元。

8.根据权利要求7所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在质检单元设人工质检员来对有效文本进行分类质检,然后对质检通过的有效文本按其分类标记发送给对应客户,对质检不通过的有效文本进行人工分类并标记,将人工分类标记后的有效文本按人工分类标记发送给对应客户,并反馈对应质检不通过信息,用于分类训练模型的改进参照。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川政资汇智能科技有限公司,未经四川政资汇智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910318616.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top