[发明专利]基于移动互联网有害信息的数据挖掘系统及其方法无效
申请号: | 201310061132.0 | 申请日: | 2013-02-27 |
公开(公告)号: | CN103116647A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 陈翟翟;舒张磊;黄峰 | 申请(专利权)人: | 武汉虹旭信息技术有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉宇晨专利事务所 42001 | 代理人: | 黄瑞棠 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 移动 互联网 有害信息 数据 挖掘 系统 及其 方法 | ||
1.一种基于移动互联网有害信息的数据挖掘系统,其特征在于:
本系统依托于运营商核心网(000),设置有数据采集单元(100)、数据还原单元(200)、数据存储单元(300)、有害信息数据挖掘单元(400)、有害信息存储单元(500)和用户展现单元(600);
运营商核心网(000)、数据采集单元(100)、数据还原单元(200)、数据存储单元(300)依次连接,实现对可读信息的还原;
有害信息数据挖掘单元(400)和数据存储单元(300)连接,实现对数据存储单元(300)里的数据进行直接挖掘;
数据存储单元(300)、有害信息存储单元(500)和用户展现单元(600)依次连接,实现有害信息的集中展现。
2.按权利要求1所述的数据挖掘系统,其特征在于所述的有害信息数据挖掘单元(400)是:
分词模块(402)连接待过滤数据模块(401),将生成的数据放入数据进行格式转换和处理模块(407);
分词模块(402)、MI模块(404)、IG模块(405)和PCA模块(406)共同连接到分好类的有害信息语料库模块(403),将生成的数据放入特征向量模块(408);
分类器模块(409)连接到数据进行格式转换和处理模块(407),获取预处理数据;
训练样本特征库模块(410)连接数据特征向量模块(408),将获取到的数据放入到分类器模块(409),最后得到的结果导入到通知展现模块(411);
待过滤数据模块(401)、分词模块(402)、MI模块(404)、IG模块(405)、PCA模块(406)、数据进行格式转换和处理模块(407)、特征向量模块(408)、分类器模块(409)、训练样本特征库模块(410)和通知展现模块(411)均为常用模块;
所述的分好类的有害信息语料库模块(403)是一种人工参与、将有害信息进行分类后得到的文本集合;发现是有害信息,归入到有害信息库中。
3.基于权利要求1所述的数据挖掘系统的有害信息数据挖掘方法,其特征在于:
①从运营商核心网采集数据后经过还原、存储得到用户的全量信息;
②将移动互联网上的有害信息中的某一类文本,进行人工选取若干条作为正样本,再选取若干条其它无害信息的文本作为负样本;
③对已知的有害信息进行建模,再通过数据挖掘方法对待定信息进行有害性判断。
4.按权利要求3所述有害信息数据挖掘方法,其特征在于所述的步骤③:
A、对正、负样本进行分词,得到一系列不重复的词汇;
B、通过MI、IG和PCA对词汇进行筛选,选取和有害信息分类相关性较大的词汇;
C、通过反文档词频,计算每篇文本在N个词汇上的一个取值,从而得到一个N维的向量,通过M个各自的向量,构建一个N维的数据模型;
D、在N维空间的数据模型中,使用支持向量机方法在正样本和负样本间生成一个N-1维的超平面,使得在超平面一侧的为正样本,另外一侧的为负样本;在有一个待判定点在此N维空间中着点的时候,则通过判断此点和超平面的位置关系判断此待测样本是正样本还是负样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉虹旭信息技术有限责任公司,未经武汉虹旭信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310061132.0/1.html,转载请声明来源钻瓜专利网。