[发明专利]一种生成垃圾短信过滤策略的方法和装置在审
申请号: | 201710001400.8 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108268554A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 孙洋;粟栗;刘子君;胡俊 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;刘伟 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾短信 垃圾短信过滤 聚类簇 方法和装置 关联规则 语义类别 误判 聚类 分析 | ||
本发明实施例提供了一种生成垃圾短信过滤策略的方法和装置,该方法包括:获取多个垃圾短信关键词;确定每个垃圾短信关键词的语义类别,并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类,得到垃圾短信关键词的聚类簇;对各个聚类簇内的垃圾短信关键词进行分析,得到每个聚类簇内垃圾短信关键词的关联规则;根据各个聚类簇内的垃圾短信关键词的关联规则生成垃圾短信过滤策略,解决现有垃圾短信过滤策略误判和漏判的情况比较严重的问题。
技术领域
本发明涉及通信技术领域,尤其涉及一种生成垃圾短信过滤策略的方法和装置。
背景技术
垃圾短信是指,用户未定制过的包含有欺骗、教唆、无聊和色情等信息。据有关部门不完全统计,我国持机人平均每天接收的“垃圾短信”多达十几亿条。垃圾短信千变万化,从本质上可以大体为四种:推广型的商业广告等,欺诈型的栏目中奖、代开发票等,违法型的涉黑、涉黄等。商业短信严重干扰了人们的日常生活,而后三者的危害却防不胜防,诈骗者可以通过多种手段获得用户的详细信息,然后进行精准诈骗,尤其对于防骗意识比较薄弱的群体,造成的损失是巨大的。如何应用技术手段,及时有效的发现这些垃圾短信是一个重要的课题。
目前使用策略识别垃圾短信仍然是主流的一种方法,主要方法包括:快速模板匹配、简单策略匹配、N-gram模型、词汇共现图模型等。其中快速模板匹配,例如使用“大家好,我换号了,新号码*”这样的模板;简单策略匹配,使用历史人工审核的样本集训练提取关键词,可以按照“与”、“或”、“非”关系组合出策略,例如包含“获奖”、“返话费”、“周年庆”等策略词组合极有可能是垃圾短信;N-gram模型,利用词汇周围两个或者三个词之间共现的关系;词汇共现图模型,词与词连接形成一个无向图,然后挖掘图模型。
针对现有的技术进行分析,发现其存在的缺点如下:
1.快速模板匹配:更适合正常短信的匹配。目前很多垃圾短信为了绕过系统拦截变形很多,如“您在十二周年庆典中被选为淘明星,将给您获送$130,000与MAC BOOK电脑一台,详情请至WMD12.COM”和“购十二周年庆典顾客,我们将为您献上¥160,000与苹果笔记本一台,请查看ttbsse.com”。
2.简单策略匹配:时效性较强,而且依赖人工参与工作比较多。提取的策略过粗会导致很多正常短信被误判(或者较长的正常短信容易命中策略造成误判),策略过细则会导致垃圾短信被漏拦。另一方面某些垃圾短信为了绕过系统的拦截,会故意把一些敏感词汇使用同音(同义)字代替,模仿正常短信口语化,这样策略词库不能及时发现会造成漏拦。
3.N-gram模型:统计待计算词汇前后N个词的共现,限于计算能力目前使用最多的为二元(Bi-gram)和三元(Tri-gram)两种方式,在短文本应用上效果很差而且只能针对目前有限的训练语料进行学习,所以扩展能力比较差。
4.词语共现图模型:也是一种计算词汇共现的图模型,利用词间的共现度强度作为图划分的依据,将图划分成不连通的簇集,使得不同簇间不连通,簇内连通,此时一个簇是一个对应着某个基本观点的连通子图,从而构成了某个特定主题,这样簇内的词汇形成一组或几组策略词组。但是在海量数据的情况下,只会发现词汇间有千丝万缕的关系,无法有效的构建簇集。
综上而言,现有策略识别技术过度依赖人为因素,即使目前借用一些机器学习的算法计算词汇间的共现关系,也无法解决技术无法精确处理的弊端,导致误判和漏判的情况比较严重。
发明内容
鉴于上述技术问题,本发明实施例提供一种生成垃圾短信过滤策略的方法和装置,解决现有垃圾短信过滤策略误判和漏判的情况比较严重的问题。
依据本发明实施例的一个方面,提供了一种生成垃圾短信过滤策略的方法,包括:
获取多个垃圾短信关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710001400.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种互联网的实时信息系统设计
- 下一篇:一种信息处理方法及装置