[发明专利]一种身份核查一体化的方法和系统在审
申请号: | 201710244254.1 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107169030A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 陈敏;张磊;张智辉;付春;陈放 | 申请(专利权)人: | 国政通科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京辰权知识产权代理有限公司11619 | 代理人: | 董李欣 |
地址: | 100195 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 身份 核查 一体化 方法 系统 | ||
技术领域
本发明涉及大数据技术领域,尤其涉及一种身份核查一体化的方法和系统。
背景技术
身份核查一体化是通过进行一站式人员基础信息采集,将采集设备与人员信息采集系统紧密集成,实现人员信息实时送至各后台业务系统,即时将比对结果反馈给采集单位。通过各信息接口平台,方便地与各分散系统完整对接,快速完成采集即录入,录入即核查,核查即反馈。
目前,身份核查已经大量的使用在飞机场、火车站、银行等场合,用于对登机的乘客或银行交易的客户进行身份核查。然而,在互联网迅猛发展的今天,很多网络即时通信工具不断涌现,例如微博、微信,由于这些通信工具被大量使用时,可能并不需要实名验证。因此,仅仅知道这些即时通信工具的账号并不能及时了解使用这个账号的用户的真实身份。这就给了一些犯罪分子以可乘之机,例如网络诈骗的案件层出不穷。
发明内容
为解决以上问题,本发明的目的是通过以下技术方案实现的。
本发明提出了一种身份核查一体化的方法,其包括:
步骤一,基于个人信息,使用网络爬虫方法抓取用户相关的图片,形成图片库;
步骤二,基于上述个人信息和图片库,对用户的身份进行一体化核查。
优选的,如上所述的身份核查一体化的方法,所述网络爬虫方法包括如下步骤:
(一)、使用杜威十进分类法,在网页特征提取阶段,快速找出将网页文本与锚文本关键词主题相近的关键词。
(二)、提取主题候选链接特征文本;
(三)、使用朴素贝叶斯文本分类器对候选链接主题边缘文本进行分类,获取主题相关网页;如果文本属于特定主题,那么相对应的候选链接以分类权值作为优先级值,以优先级的大小顺序插入爬行队列,爬虫优先访问分类值大的链接,如果文本不属于特定主题,则丢弃候选链接;
(四)、对相关网页的Web链接信息用HITS算法计算出其对应的权威度和中心度,综合锚文本、锚文本附近信息、反向网页、反向链接的兄弟链接、URL链接,预判待爬取网页与主题的相关度。
优选的,如上所述的身份核查一体化的方法,所述提取主题候选链接特征文本包括如下步骤:
(1)对网页的锚文本和正文进行分词处理,去掉停用词,得到关键词;
(2)查找关键词的杜威分类号码;
(3)运用杜威十进制分类法的特性并结合二维坐标提取主题候选链接特征文本;把关键词分类号码的长度作为X轴,关键词分类号码作为Y轴,将关键词对应的杜威十进分类号码在二维坐标中绘制相应的点。
(4)提取二维坐标中锚文本关键点以及锚文本周围的关键点对应的关键词作为主题候选链接特征文本。
优选的,如上所述的身份核查一体化的方法,所述个人信息为手机号、身份证号、或邮箱中的一个或多个;所述用户相关的图片包括微博、微信、身份证上的图片。
优选的,如上所述的身份核查一体化的方法,所述一体化核查包括如下过程:对用户进行分析、打标签、关联、价值定位。
根据本发明的另一个方面,还提供了一种身份核查一体化的系统,包括顺序连接的如下模块:
图片抓取模块,用于基于个人信息,使用网络爬虫方法抓取用户相关的图片,形成图片库;
身份核查模块,用于基于上述个人信息和图片库,对用户的身份进行一体化核查。
优选的,如上所述的身份核查一体化的系统,所述图片抓取模块包括顺序连接的如下单元:
关键词寻找单元,用于使用杜威十进分类法,在网页特征提取阶段,快速找出将网页文本与锚文本关键词主题相近的关键词;
提取特征文本单元,用于提取主题候选链接特征文本;
网页获取单元,用于使用朴素贝叶斯文本分类器对候选链接主题边缘文本进行分类,获取主题相关网页;如果文本属于特定主题,那么相对应的候选链接以分类权值作为优先级值,以优先级的大小顺序插入爬行队列,爬虫优先访问分类值大的链接,如果文本不属于特定主题,则丢弃候选链接;
预判单元,用于对相关网页的Web链接信息用HITS算法计算出其对应的权威度和中心度,综合锚文本、锚文本附近信息、反向网页、反向链接的兄弟链接、URL链接,预判待爬取网页与主题的相关度。
优选的,如上所述的身份核查一体化的系统,所述提取特征文本单元包括顺序连接的如下装置:
分词装置,用于对网页的锚文本和正文进行分词处理,去掉停用词,得到关键词;
查找装置,用于查找关键词的杜威分类号码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国政通科技股份有限公司,未经国政通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710244254.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种推荐方法及装置
- 下一篇:一种基于深度表达的图片素材推荐方法