[发明专利]基于移动互联网有害信息的数据挖掘系统及其方法无效
申请号: | 201310061132.0 | 申请日: | 2013-02-27 |
公开(公告)号: | CN103116647A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 陈翟翟;舒张磊;黄峰 | 申请(专利权)人: | 武汉虹旭信息技术有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉宇晨专利事务所 42001 | 代理人: | 黄瑞棠 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 移动 互联网 有害信息 数据 挖掘 系统 及其 方法 | ||
技术领域
本发明涉及移动互联网领域,尤其涉及一种基于移动互联网有害信息的数据挖掘系统及其方法。
背景技术
随着移动互联网技术的快速发展,承载在互联网上的信息越来越多,这其中就有很多对社会有害的信息,比如黄、赌、毒等。如何从互联网的海量信息中挖掘这些有害信息,进而挖掘出有害信息的源头,做到先期预防。而互联网上的信息是海量的,有害信息是相对少量的,如何在海量信息中准确提取少量信息,主要还是通过数学建模的方式去做。
目前对于移动互联网上的有害信息只是通过简单的字符查询进行的浅层挖掘,还未提升到基于文本内容上的挖掘。
表达相同含义的文本一定有着类似词语使用情况,比如体育文本含有NBA(全美篮球协会)、足球、欧锦赛、世界杯等的概率会大大高于其他类型的文本词语;同时股票文本包含股市、涨停、跌停等词的概率也会大大高于其他类型的文本词语。如果从每种类型的文本中找到这种特征并利用这种特征建立一个数学模型,就可以帮助建立一种移动互联网有害信息的分类方法。
本发明适用于运营商核心网平台。基于运营商核心网平台,从核心网平台的PDSN( Packet Data Serving Node,分组数据服务节点)设备进行分光,获取核心网全量数据,解析还原后得到可以应用于数据挖掘的数据,再使用本发明对这些数据进行有害信息的挖掘。
发明内容
本发明的目的就在于克服现有技术存在的缺点和不足,提供一种基于移动互联网有害信息的数据挖掘系统及其方法。
本发明的目的是这样实现的:
建立起一个好的数学模型,过滤出有害信息,并集中展现这些有害信息。
一、基于移动互联网有害信息数据挖掘系统(简称系统)
本系统依托于运营商核心网,设置有数据采集单元、数据还原单元、数据存储单元、有害信息数据挖掘单元、有害信息存储单元和用户展现单元;
运营商核心网、数据采集单元、数据还原单元、数据存储单元依次连接,实现对可读信息的还原;
有害信息数据挖掘单元和数据存储单元连接,实现对数据存储单元里的数据进行直接挖掘;
数据存储单元、有害信息存储单元和用户展现单元依次连接,实现有害信息的集中展现。
二、移动互联网有害信息数据挖掘方法(简称方法)
本方法包括下列步骤:
①从运营商核心网采集数据后经过还原、存储得到用户的全量信息;
②将移动互联网上的有害信息中的某一类(例如毒品)文本,进行人工选取若干条作为正样本,再选取若干条其它无害信息的文本作为负样本;
③对已知的有害信息进行建模,再通过数据挖掘方法对待定信息进行有害性判断。
本发明对比现有技术有如下优点和积极效果:
①根据移动互联网有害信息的独有特征,建立有针对性的模型,专门针对移动互联网有害信息进行过滤,因此针对性好,识别率高,效果较传统判断方法更加科学;
②传统判断有害信息的方法多以条件判断或特定字符串匹配进行,条件判断方法只能在低维空间中判断少数几种特征,特定字符串匹配方法无法消除词语二义性判断;本发明可完全克服传统有害信息过滤方法的不足,建立的模型基于高维空间,判断更准确,通过统计学算法可以有效判定词语的二义性;
③本发明将整个有害信息系统有机地分为两个模块,即模型建立和样本分割,两个模块可以单独进行优化,有效地提高了本发明的可扩展性;在模型建立模块中,可以增加判断特征(词)对于系统重要性的算法来综合检验模型的效果,在样本分割模块,可以选择更多的机器学习分类算法。
总之,本发明采取数据挖掘、机器学习、信息论等领域算法,综合改进了移动互联网有害信息的过滤算法,将模型推向了高维空间进行分类判断;同时采用了较好的结构模块,使得过滤系统准确性地提升有较大的灵活性和可扩展性。
附图说明
图1是本系统的结构方框图;
图2是有害信息数据挖掘单元的结构方框图。
其中
000—运营商核心网;
100—数据采集单元;
200—数据还原单元;
300—数据存储单元;
400—有害信息数据挖掘单元,
401—待过滤数据模块,402—分词模块,
403—分好类的有害信息语料库模块,404—MI模块,405—IG模块,
406—PCA模块,407—数据进行格式转换和处理模块,
408—特征向量模块,409—分类器模块,410—训练样本特征库模块,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉虹旭信息技术有限责任公司,未经武汉虹旭信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310061132.0/2.html,转载请声明来源钻瓜专利网。