[发明专利]一种虚拟身份挖掘方法有效
申请号: | 201711026389.7 | 申请日: | 2017-10-27 |
公开(公告)号: | CN107679240B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 王江涛;徐新胜 | 申请(专利权)人: | 中国计量大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/2455;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 虚拟 身份 挖掘 方法 | ||
本发明提出了一种虚拟身份挖掘方法,该方法基于C/S架构的客户端/服务器框架。该方法分为数据建模和流程建模两个部分。数据建模为整个系统提供数据支撑,其过程包括客户端文件上传、服务器解析文件到关系型数据库、数据预处理、数据上传至ElasticSearch集群和Neo4j集群。流程建模主要负责设计功能需求、协调各个功能之间关系,同时解决了实现各个功能需要用到的技术、方法等。整个方法包含四大功能,分别是全文检索、高级筛选、关系网络建立和虚拟身份挖掘。本发明能够推动对日益增长的虚拟网络身份数据进行更加有效管理,支持大文件上传、断点续传,对不同来源获取大量虚拟身份数据进行快速检索和关系挖掘的虚拟身份挖掘。
技术领域
本发明涉及计算机技术领域,特别是涉及一种虚拟身份挖掘方法。
背景技术
随着社会生活的发展,互联网已经成为人们日常工作和生活的重要平台,互联网用户(简称网民)在使用某一网站时一般需要登记个人基本信息进行注册从而获得更好的体验效果,我们将这些基本信息称之为用户的虚拟身份信息。同一网民一般会在多个网络平台进行身份登记,即形成了同一用户的多重虚拟身份,我国网民数量已到达数亿级别,同时由于网络普及率逐年递增,这就造成了日益庞大的互联网虚拟身份数据,需对其进行有效监管。而监管则是建立在于准确而又全面的获取同一用户的多重互联网虚拟身份的基础上,这对国家安全和社会稳定都有着重大意义,如通过分析不同互联网虚拟身份的社会网络关系,可以发现某些不利于社会稳定的谣言的传播模式,并根据互联网虚拟身份之间的关系进行追踪和阻断。
面对海量分布的网上行为数据和网络内容信息,现有技术中获取互联网虚拟身份信息的方法主要是通过爬虫技术来获取原始数据,再根据获取的原始数据进行简单的查询和匹配,但由于很多网站对爬虫技术的限制,导致爬虫技术所能获取的网络数据有限,再加上爬虫技术获取数据的需要耗费大量的资源,因此导致其分析计算能力也有局限,因此爬虫技术无法全面的收集反映互联网虚拟身份信息的数据,致使获取的原始数据不完整且存在大量噪音数据,也使得后续的查询和匹配缺乏深度的内容挖掘和关系挖掘。
发明内容
本发明为了克服上述现有技术中的不足,提出了一种虚拟身份挖掘方法,该方法不仅能够实现大文件通过Http协议传输,能够对包含160个不同网站获取的20亿虚拟身份数据进行快速查询、多重虚拟身份挖掘。
一种虚拟身份挖掘方法,其特征在于包括如下步骤:
1)进行数据上传,其过程包括客户端上传文件、服务器解析文件到关系型数据库、数据预处理、数据上传至ElasticSearch集群和Neo4j集群;
2) 进行全文检索,根据用户提供的信息,用部分匹配技术对ElasticSearch集群内的数据进行全文检索,查找符合条件的人员信息;
3)进行高级筛选,以字段、数据来源等条件作为规则对全文检索的结果进行二次筛选以缩小范围;
4)关系网络建立,ElasticSearch集群逐条读取待导入数据,与ElasticSearch集群内的历史数据进行关系碰撞,将碰撞到的离散关系存入Neo4j集群,合并Neo4j集群内的所有离散关系,形成关系网路;
5)虚拟身份挖掘,通过已建立的关系网络挖掘指定对象的多重虚拟身份。
一种虚拟身份挖掘方法,其特征在于所述的客户端上传文件,具体为:文件通过Http协议上传至服务器,上传过程支持并发操作、大文件上传、断点续传。
一种虚拟身份挖掘方法,其特征在于所述的服务器解析文件到关系型数据库,具体为:从文件中逐条读取人员信息存入到缓冲区,批量存入数据库,其过程支持文件预览、添加表头行、选择上传字段、选择上传数据库、选择数据表、上传成功后的记录日志。
一种虚拟身份挖掘方法,其特征在于所述的部分匹配技术为边缘匹配N-gram。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国计量大学,未经中国计量大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711026389.7/2.html,转载请声明来源钻瓜专利网。