[发明专利]一种用于金融仓单风控的网络爬虫方法有效
申请号: | 201610465637.7 | 申请日: | 2016-06-23 |
公开(公告)号: | CN106096008B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 李浩 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q40/02 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种用于金融仓单风险控制的网络爬虫方法,采用双布隆过滤器关键词匹配,实现对网络爬虫信息中包含货物信息结果的快速筛选;基于分类匹配方式实现对相同类别货物的精准分类,并结合阈值比较规则,实现对新货物类别的自动添加;基于消息机制,实现整个处理过程前后端任务的负载均衡,保证处理过程的可控性和效率最大化,防止局部热点。采用本发明的技术方案,可以实现对金融仓单抵押货物信息的高效爬取和精确筛选。 | ||
搜索关键词: | 一种 用于 金融 仓单风控 网络 爬虫 方法 | ||
【主权项】:
一种用于金融仓单风险控制的网络爬虫方法,其特征在于,包括以下步骤:步骤S1、从已知的样本数据中提取关键词,并计算特征向量,其中,所述关键词组合形成关键词库,所述特征向量根据样本原有的货物分类组合形成摘要库;步骤S2、建立包含形成针对仓单抵押货物名称的布隆过滤器和形成按照货物价格信息的置信区间的布隆过滤器的双布隆过滤器;步骤S3、根据获得网络爬虫结果页面提取爬虫结果页面中的关键词,通过双布隆过滤器进行过滤,筛选出同时具备货物名称和价格信息的爬虫记录;步骤S4、对筛选出的爬虫记录内容的关键词进行特征向量计算;步骤S5、根据样本训练形成的摘要库和各货物类别,通过分类匹配算法将所述特征向量与摘要库每个类别进行相似度计算;步骤S6、将所述特征向量与摘要库整体的相似度和预设阈值区间的上下限比较,以进行舍弃、更新、归类处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610465637.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种制备石墨烯透明导电薄膜的方法
- 下一篇:一种便捷式医疗担架