[发明专利]一种基于IDC有害信息监测系统的样本训练系统有效
申请号: | 201510343176.1 | 申请日: | 2015-06-19 |
公开(公告)号: | CN104899324B | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 彭光辉;屈立笳;陶磊;苏礼刚;林伟 | 申请(专利权)人: | 成都国腾实业集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/66 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 idc 有害信息 监测 系统 样本 训练 | ||
本发明公开了一种基于IDC有害信息监测系统的样本训练系统,爬虫样本训练单元中,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库;有害监测样本训练单元中,关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
技术领域
本发明涉及一种基于IDC有害信息监测系统的样本训练系统。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。
面对日益活跃的网络社区环境,每个网民都可能成为有害信息的发布者和散布者,网络有害传播途径越来越广包括博客、新闻、论坛、微博、以及其他途径。网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为有害信息挖掘的研究热点。
然而由于传统搜索引擎的局限性,如覆盖率低、时效性差、结果不准确、返回不相关的结果太多等缺点逐渐体现。IDC系统不能准确有效地进行有害信息监测。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于IDC有害信息监测系统的样本训练系统,本系统提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控;并从海量数据中,采集到与敏感词有关的数据,做到主动发现有害网页,通过样本训练系统提高有害信息监测的准确性和有效性。
本发明的目的是通过以下技术方案来实现的:一种基于IDC有害信息监测系统的样本训练系统,它包括爬虫系统和有害信息监测系统,有害信息监测系统通过爬虫系统获取互联网数据中心中的网页数据,并对其进行有害分析。
所述爬虫系统包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测系统进行相互通信,爬虫结点用于采集网络中的有害信息,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集。
2、网页库,存储多线程网页采集模块所采集的网页。
3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理。
4、网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL。
5、URL过滤器,过滤不需要下载的URL。
6、URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理。
7、URL调度模块,在去重后的URL队列基础上,根据该主题相关度调整URL队列,控制多线程网页采集模块下载相应的网页。
8、所述爬虫结点还包括网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都国腾实业集团有限公司,未经成都国腾实业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510343176.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞机最大下沉速度计算方法
- 下一篇:WebGIS矢量数据高效传输方法