[发明专利]一种根据多数据源防欺诈的方法和系统在审
| 申请号: | 201710415509.6 | 申请日: | 2017-06-05 |
| 公开(公告)号: | CN107330705A | 公开(公告)日: | 2017-11-07 |
| 发明(设计)人: | 王亚博;李莉莉;付春;陈放 | 申请(专利权)人: | 国政通科技股份有限公司 |
| 主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F17/30 |
| 代理公司: | 北京辰权知识产权代理有限公司11619 | 代理人: | 董李欣 |
| 地址: | 100195 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 根据 多数 据源防 欺诈 方法 系统 | ||
技术领域
本发明涉及大数据技术领域,尤其涉及一种根据多数据源防欺诈的方法和系统。
背景技术
诚信是中华民族的传统的美德,但当下不诚信的人、不诚信的事出现的频率越来越高,已经对人们的生活造成了巨大的影响,因此公民诚信系统的建立显得迫在眉睫。
现有技术中,人民银行的征信系统对有业务来往的客户建立诚信系统,为其他银行提供信用参照。公安部对每个公民建立户籍系统并建立案底档案,教育部对每个受教育者建立教育档案,其他民间机构也对相应个体建立相关方面的档案资料。实际操作中,各大银行可以根据征信系统来提供借贷服务,铁道部可以通过户籍系统来实现实名制,公安局可以通过互联网来追捕逃犯,教育部可以通过学生档案来实现升学等等。
现有技术的缺点是只能针对采集的数据对个人目前某个方面状态进行评估,而不能对从整体上来评估一个人。还有现有技术在局部征信只能面对大企业或者行政机构,不能点对点的实现诚信的评估。
大数据技术是近些年新兴的科学技术,其逐渐应用于社会的各行各业。在大数据的框架下,有用的数据在大量的数据下被掩盖,只有将这些数据通过数据漂白、清洗,然后分类出有用的数据。通过对有用的数据进行分析评估,得出自己想要的分析结果。然而数据量如此之大,如何使用这些数据,使用其中有用的数据就成为当今一个重要的课题。
信息聚合是通过客户端软件或网络应用程序将诸如新闻头条、博客、播客等网络信息聚合到单一地点以方便用户浏览。Web2.0环境下信息海量增长,尤其是用户自产生内容的发展,用户每天在各种微博、SNS创造着庞大数量的内容,既多又杂。此外,政府组织和个人正把越来越多的数据信息放到网络上。另外,随着越来越多现实中的物体通过物联网技术和互联网连接,互联网即将迎来一次数据信息的大爆炸。如何过滤并重组这些数据信息使之最终变成个人化的信息,将是这些海量信息存在的价值所在。
目前,网络爬虫技术已广泛应用于信息聚合。例如,申请号为201210495699.4的中国发明专利申请,公开了一种网络爬虫,包括一内核以及一Ajax抓取配置,该内核以及该Ajax抓取配置均集成有htmlunit,该Ajax抓取配置用于指定一网页的地址以及该网页中的待抓取的数据,该内核用于驱动搜索引擎,并基于该Ajax抓取配置提取该待抓取的数据。该发明能够支持Ajax的执行方式抓取网页页面的数据,并且支持异步请求的技术,可以使用JavaScript向服务器提出请求并处理响应,而且不会阻塞用户。
然而,目前仍然没有通过大量的云数据分析,对客户的信用度进行准确评价的方法,往往无法防止网络欺诈、电话欺诈等事件的发生。
发明内容
为解决以上问题,本发明的目的是通过以下技术方案实现的。
本发明提出了一种根据多数据源防欺诈的方法,其包括:
步骤一,采集多维度信息数据;
步骤二,信息聚合整理,将所述多维度信息数据预处理为统一格式的预处理数据;
步骤三,将上述预处理数据代入高维动态协方差矩阵,计算信息匹配度;
步骤四,根据上述计算的结果判断用户行为。
优选的,如上所述的根据多数据源防欺诈的方法,步骤一中采用网络爬虫方法进行目标抓取。
优选的,如上所述的根据多数据源防欺诈的方法,所述网络爬虫方法包括如下步骤:
(一)、使用杜威十进分类法,在网页特征提取阶段,快速找出网页文本与锚文本关键词主题相近的关键词。
(二)、提取主题候选链接特征文本;
(三)、使用朴素贝叶斯文本分类器对候选链接主题边缘文本进行分类,获取主题相关网页;如果文本属于特定主题,那么相对应的候选链接以分类权值作为优先级值,以优先级的大小顺序插入爬行队列,爬虫优先访问分类值大的链接,如果文本不属于特定主题,则丢弃候选链接;
(四)、对相关网页的Web链接信息用HITS算法计算出其对应的权威度和中心度,综合锚文本、锚文本附近信息、反向网页、反向链接的兄弟链接、URL链接,预判待爬取网页与主题的相关度。
优选的,如上所述的根据多数据源防欺诈的方法,所述提取主题候选链接特征文本包括如下步骤:
(1)对网页的锚文本和正文进行分词处理,去掉停用词,得到关键词;
(2)查找关键词的杜威分类号码;
(3)运用杜威十进制分类法的特性并结合二维坐标提取主题候选链接特征文本;把关键词分类号码的长度作为X轴,关键词分类号码作为Y轴,将关键词对应的杜威十进分类号码在二维坐标中绘制相应的点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国政通科技股份有限公司,未经国政通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710415509.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隐藏式升降照明机构
- 下一篇:一种高效散热自清洁LED路灯





