[发明专利]一种基于行为特征的短信分类装置及方法有效
申请号: | 201610016942.8 | 申请日: | 2016-01-12 |
公开(公告)号: | CN105721539B | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 程军;王纯甫;李鹏鹏;张大雷;曹毅 | 申请(专利权)人: | 深圳市深讯数据科技股份有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F16/35;G06F9/50 |
代理公司: | 深圳市远航专利商标事务所(普通合伙) 44276 | 代理人: | 田志远;张朝阳 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于行为特征的短信分类装置及方法,所述装置包括信息采集部件、统计部件、判断部件、执行部件和容错部件,所述信息采集部件采集短信数据信息,所述统计部件提取采集部件提供的信息,并统计每个短信的行为特征信息,所述判断部件获取统计部件的统计结果,并给出判断结果,所述执行部件进行短信分类,所述容错部件提取统计部件中统计失败的数据信息。本发明基于Hadoop平台,利用MapReduce计算模型将短信分类并行化,从而大大提高了大规模短信的分类效率。本发明还可以同时基于多个短信的行为特征进行短信的分类,提高了短信分类的准确性。 | ||
搜索关键词: | 一种 基于 行为 特征 短信 分类 装置 方法 | ||
【主权项】:
1.一种用于基于行为特征的短信分类方法,其特征在于:包括以下步骤:步骤1:集合所有短信的数据信息;步骤2:统计所有短信的行为特征并输出;步骤3:根据步骤2的输出结果判断出最优短信分类结果;步骤4:根据步骤3的判断结果进行短信分类;其中步骤1基于大数据平台实现,具体步骤如下:步骤11:将操作数据进行实时记录,并将操作数据存储至本地存储器中;步骤12:读取本地存储器中的操作数据,并对操作数据进行预处理,包括剔除无效数据和整合重复数据;步骤13:将预处理数据定时定量的远程发送至远程存储器中;步骤14:读取远程存储器中的预处理数据,并按照短信的发送者和接收者对预处理数据进行分类处理,再将分类处理获得的分类数据存储至面向大数据的数据库;步骤15:按照分类有序读取数据库中的分类数据;所述步骤2:短信行为特征的提取基于Hadoop平台和MapReduce函数完成,具体步骤如下:步骤21:从采集到的数据中将短信的发送者和接收者列表提取作为输入;步骤22:通过Map函数并行的将短信的发送者和接收者记录转换成发送者和每个接收者一对一的发送关系;Map函数的输入<键,值>:<缺省的每行偏移量,短信的发送者‑接收者记录>;Map函数的输出<键,值>:<发送者接收者,1>Map函数的处理过程:将输入的每条邮件发送者‑接收者记录切分成发送者及各个接收者,然后将发送者和每个接收者拼接起来作为输出的键,输出的值为1;步骤23:通过Reduce函数计算每个发送者对应的短信接收者的个数;Reduce函数的输入<键,值>:<发送者接收者,List(1,1,....1)>Reduce函数的输出<键,值>:<发送者,对应的邮件接收者数量>Reduce函数的处理过程:切分输入记录的键,其包括“发送者接收者”,提取发送者,然后使用一个全局变量计数具有相同发送者数量;步骤24:输出每个发送者对应的短信接收者的个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市深讯数据科技股份有限公司,未经深圳市深讯数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610016942.8/,转载请声明来源钻瓜专利网。