[发明专利]多源、异构流态大数据分布式在线实时处理方法及系统在审
申请号: | 201910002779.3 | 申请日: | 2019-01-02 |
公开(公告)号: | CN109740037A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 于俊凤;魏墨济;杨子江;李思思;朱世伟;郭建萍;杨爱芹;李晨;刘翠芹 | 申请(专利权)人: | 山东省科学院情报研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9535;G06F16/955;G06F16/35;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据流 页面 预处理 在线实时处理 敏感信息 大数据 多源 流态 异构 文本 视觉 分布式文件系统 页面分割算法 分布式消息 爬虫 数据记录 数据节点 数据属性 特性确定 网页数据 文本聚类 选择存储 数据源 剪枝 多层 构建 去重 算法 谓词 推断 分发 噪音 筛选 分类 检测 | ||
本公开提供了一种多源、异构流态大数据分布式在线实时处理方法及系统,利用分布式爬虫去重算法对各来源的网页数据进行爬取,对爬取的页面进行预处理,利用视觉的页面分割算法构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;利用Hadoop分布式文件系统对数据流进行选择存储的操作,基于K‑means文本聚类方法对处理后的数据进行检测,确定与预定的敏感信息文本相似的文本,筛选出敏感信息。
技术领域
本公开涉及一种多源、异构流态大数据分布式在线实时处理方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
以国际互联网形成为标志的网络技术革命把人类社会推向信息网络化时代,形成全新的社会生活空间——网络环境,实时映射着社会生活的方方面面。在移动网和互联网飞速发展的时代,信息高度膨胀使得当前安全形势变得更加错综复杂,网络战争已经成为非传统社会安全领域的一个重要课题。
由于论坛、微博、博客、私人空间、人人网等社交网站承载着大量的数据流动,在传统安全防范手段难以有效发挥作用的电子荒野上,亿万个网民的亿万种声音,利用互联网的隐蔽性、普及性、虚拟性以及时空超越性等特点隐身,给社会安全和国家稳定带来巨大挑战。
因此,如何对社交大数据中的敏感信息进行挖掘,以网络犯罪实时发现为主要目标,提出针对社会安全事件和危险观点持有者的监控和预警框架,从而为在新型战场中抑制犯罪提供技术支持已成为当前重要的研究课题和应用需求。
当前国内外针对网络犯罪防控的研究主要集中于敏感话题发现、犯罪组织关系挖掘以及谣言的传播等方面。从宏观上划分,大数据分析技术在网络犯罪防控中的应用可分为犯罪活动发生之前和发生之后。在犯罪活动发生之前,通过大数据技术对新产生的海量敏感数据进行预测,以监控犯罪分子的动向,并及时做出预警。在犯罪活动发生之后,利用各种方式收集相关数据,通过大数据技术深入挖掘所掌握的敏感数据,来判别事件并锁定人员。当前的研究无论是敏感话题发现、犯罪组织关系挖掘还是针对谣言的传播,均依赖于一定量数据的积累分析,属于事后研判,其对犯罪活动整治及舆论导向起着支撑和辅助决策的作用,但却难以做到社会安全的实时监控以及预警。
发明内容
本公开为了解决上述问题,提出了一种多源、异构流态大数据分布式在线实时处理方法及系统。
根据一些实施例,本公开采用如下技术方案:
一种多源、异构流态大数据分布式在线实时处理方法,包括以下步骤:
(1)利用分布式爬虫中URL去重算法对各来源的网页数据进行爬取,构建哈希表保存已经访问过的URL,并利用布隆过滤器进行地址判重;
(2)对爬取的页面进行预处理,利用视觉的页面分割算法VISP构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;
(3)利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;
(4)利用Hadoop分布式文件系统对数据流进行选择存储的操作,数据节点通过心跳协议定期向控制节点汇报其状态信息,控制节点根据状态信息作为存储策略来选择数据节点是否合适的依据,根据设定的阈值与数据节点的状态信息来确定是否选择这个数据节点,对选择的数据进行优化存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910002779.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:OTA平台酒店排序方法及装置
- 下一篇:网络数据分布式采集系统及方法