[发明专利]一种消息处理方法及装置在审
申请号: | 201710864054.6 | 申请日: | 2017-09-22 |
公开(公告)号: | CN109547319A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 费硕成;王浩 | 申请(专利权)人: | 中移(杭州)信息技术有限公司;中国移动通信集团公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 311100 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理消息 消息处理 违规 指纹 统计周期 消息内容 鉴别 鉴别处理 维度 统计 | ||
本发明涉及消息处理技术领域,特别涉及一种消息处理方法及装置。该方法为:从获取的待处理消息中提取消息内容;根据待处理消息的消息内容,计算待处理消息的消息指纹值;根据当前统计周期内获取到的每一待处理消息的消息指纹值,确定出每一待处理消息分别对应的相似消息的数量;根据每一待处理消息分别对应的相似消息的数量,分别判断每一待处理消息是否为合规消息。采用上述方法,通过计算一个统计周期内获取到的每一待处理消息的消息指纹值,并统计每一待处理消息的相似消息的数量,以及根据每一待处理消息的相似消息的数量,对待处理消息进行违规鉴别处理,提高了对违规消息的鉴别范围,拓宽了违规消息的鉴别维度。
技术领域
本发明涉及消息处理技术领域,特别涉及一种消息处理方法及装置。
背景技术
随着互联网的发展,智能终端的普及,及短消息技术的发展,在人们的日常学习、工作和生活中,短消息的使用越来越广泛,也给人们的生活带来了极大的便利,同时,短消息的形式也越来越多样化,相应的,短消息的内容也越来越多样化,如,正常消息和消息内容中包含有用于欺诈、骚扰、广告或禁止传播的垃圾消息。
目前,基于内容的反垃圾消息的产品在技术领域上可分为:垃圾消息发现,垃圾消息识别和垃圾消息处理三大类别。其中,垃圾消息发现是其中最重要的一个环节,垃圾消息发现的广度和精确度直接影响反垃圾消息产品的工作效率。
现有技术中,在垃圾消息发现工作中广泛使用的技术手段是消息指纹判断技术,即当一条消息被判定为垃圾消息时,针对该垃圾消息,通过摘要算法生成一条16进制的32位MD5值,即消息指纹,该MD5值与该垃圾消息相对应。反垃圾消息系统将该MD5值存储在违规消息指纹库中,当检测到业务平台中存在与违规指纹库中任一违规消息指纹相同的消息指纹的消息在传播时,直接判定该消息为垃圾消息,并迅速进行拦截,以防止扩散。
然而,由于摘要指纹算法有非常强的抗修改性,即只要对原数据进行任何改动,即便只有1个字节的改动,通过摘要算法得到的修改后的数据对应的MD5值与原数据对应的MD5值之间存在很大的区别,那么,只要垃圾消息发生任何修改,通过比较MD5值的方式就不能识别出该垃圾消息,使得垃圾消息识别准确率不高。
有鉴于此,需要设计一种新的消息处理方法及装置,以弥补现有技术中存在的缺陷和不足之处。
发明内容
本发明实施例的目的是提供一种消息处理方法及装置,用以解决现有技术中存在的垃圾消息识别准确率不高的问题。
本发明实施例中提供的具体技术方案如下:
一种消息处理方法,包括:
从获取的待处理消息中提取消息内容;
根据所述待处理消息的消息内容,计算所述待处理消息的消息指纹值;
根据当前统计周期内获取到的每一待处理消息的消息指纹值,确定出所述每一待处理消息分别对应的相似消息的数量,其中,消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息;
根据所述每一待处理消息分别对应的相似消息的数量,分别判断所述每一待处理消息是否为合规消息。
较佳的,在从获取的待处理消息中提取消息内容之前,进一步包括:
判断所述待处理消息中是否包含有电话号码和/或统一资源定位符URL,并在判定所述待处理消息包含有电话号码和/或URL时,提取所述电话号码和/或URL。
较佳的,计算所述待处理消息的消息指纹值,具体包括:
去除所述待处理消息的消息内容中的无意义字符,生成相应的精简消息内容,其中,所述无意义字符至少包括标点,虚词,数字,特殊符号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(杭州)信息技术有限公司;中国移动通信集团公司,未经中移(杭州)信息技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710864054.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:VPN数据报文的处理方法、装置、电子设备
- 下一篇:社交方法、装置及设备