[发明专利]一种身份核查一体化的方法和系统在审
申请号: | 201710244254.1 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107169030A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 陈敏;张磊;张智辉;付春;陈放 | 申请(专利权)人: | 国政通科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京辰权知识产权代理有限公司11619 | 代理人: | 董李欣 |
地址: | 100195 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 身份 核查 一体化 方法 系统 | ||
1.一种身份核查一体化的方法,其包括:
步骤一,基于用户信息,使用网络爬虫方法抓取与用户相关的图片,形成图片库;
步骤二,基于上述用户信息和图片库,对用户的身份进行一体化核查。
2.如权利要求1所述的身份核查一体化的方法,其特征在于:
所述网络爬虫方法包括如下步骤:
(一)、使用杜威十进分类法,在网页特征提取阶段,快速找出网页文本与锚文本关键词主题相近的关键词;
(二)、提取主题候选链接特征文本;
(三)、使用朴素贝叶斯文本分类器对候选链接主题边缘文本进行分类,获取主题相关网页;如果文本属于特定主题,那么相对应的候选链接以分类权值作为优先级值,以优先级的大小顺序插入爬行队列,爬虫优先访问分类值大的链接,如果文本不属于特定主题,则丢弃候选链接;
(四)、对相关网页的Web链接信息用HITS算法计算出其对应的权威度和中心度,综合锚文本、锚文本附近信息、反向网页、反向链接的兄弟链接、URL链接,预判待爬取网页与主题的相关度。
3.如权利要求2所述的身份核查一体化的方法,其特征在于:所述提取主题候选链接特征文本包括如下步骤:
(1)对网页的锚文本和正文进行分词处理,去掉停用词,得到关键词;
(2)查找关键词的杜威分类号码;
(3)运用杜威十进制分类法的特性并结合二维坐标提取主题候选链接特征文本;把关键词分类号码的长度作为X轴,关键词分类号码作为Y轴,将关键词对应的杜威十进分类号码在二维坐标中绘制相应的点;
(4)提取二维坐标中锚文本关键点以及锚文本周围的关键点对应的关键词作为主题候选链接特征文本。
4.如权利要求1所述的身份核查一体化的方法,其特征在于:所述个人信息为护照号、手机号、身份证号、或邮箱中的一个或多个;所述用户相关的图片包括微博、微信、身份证上的图片。
5.如权利要求1所述的身份核查一体化的方法,其特征在于:所述一体化核查包括如下过程:对用户进行分析、打标签、关联、和/或价值定位。
6.一种身份核查一体化的系统,其特征在于,包括顺序连接的如下模块:
图片抓取模块,用于基于用户信息,使用网络爬虫方法抓取用户相关的图片,形成图片库;
身份核查模块,用于基于上述用户信息和图片库,对用户的身份进行一体化核查。
7.如权利要求6所述的多数据源防欺诈的系统,其特征在于:
所述图片抓取模块包括顺序连接的如下单元:
关键词寻找单元,用于使用杜威十进分类法,在网页特征提取阶段,快速找出网页文本与锚文本关键词主题相近的关键词;
提取特征文本单元,用于提取主题候选链接特征文本;
网页获取单元,用于使用朴素贝叶斯文本分类器对候选链接主题边缘文本进行分类,获取主题相关网页;如果文本属于特定主题,那么相对应的候选链接以分类权值作为优先级值,以优先级的大小顺序插入爬行队列,爬虫优先访问分类值大的链接,如果文本不属于特定主题,则丢弃候选链接;
预判单元,用于对相关网页的Web链接信息用HITS算法计算出其对应的权威度和中心度,综合锚文本、锚文本附近信息、反向网页、反向链接的兄弟链接、URL链接,预判待爬取网页与主题的相关度。
8.如权利要求7所述的身份核查一体化的方法,其特征在于:所述提取特征文本单元包括顺序连接的如下装置:
分词装置,用于对网页的锚文本和正文进行分词处理,去掉停用词,得到关键词;
查找装置,用于查找关键词的杜威分类号码;
第一提取装置,用于运用杜威十进制分类法的特性并结合二维坐标提取主题候选链接特征文本;把关键词分类号码的长度作为X轴,关键词分类号码作为Y轴,将关键词对应的杜威十进分类号码在二维坐标中绘制相应的点。
第二提取装置,用于提取二维坐标中锚文本关键点以及锚文本周围的关键点对应的关键词作为主题候选链接特征文本。
9.如权利要求6所述的身份核查一体化的方法,其特征在于:所述个人信息为护照号、手机号、身份证号、或邮箱中的一个或多个;所述用户相关的图片包括微博、微信、身份证上的图片。
10.如权利要求6所述的身份核查一体化的方法,其特征在于:所述一体化核查包括如下过程:对用户进行分析、打标签、关联、和/或价值定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国政通科技股份有限公司,未经国政通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710244254.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种推荐方法及装置
- 下一篇:一种基于深度表达的图片素材推荐方法