[发明专利]垃圾短信的识别方法及装置在审

申请号：	201711277588.5	申请日：	2017-12-06
公开（公告）号：	CN108062303A	公开（公告）日：	2018-05-22
发明（设计）人：	李强;周楠;史东杰	申请（专利权）人：	北京奇虎科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06N3/08
代理公司：	北京中强智尚知识产权代理有限公司 11448	代理人：	黄耀威
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	垃圾短信识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种垃圾短信的识别方法及装置，涉及一种短信技术领域，主要目的在于现有被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信的问题。主要技术方案：获取短信的文本信息；判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息；若存在异常信息，则对所述异常信息进行预处理；根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信；若为垃圾短信，则将所述垃圾短信进行提示标记。

技术领域

本发明涉及一种短信技术领域，特别是涉及一种垃圾短信的识别方法及装置。

背景技术

短信是指用户通过手机或其他具有电信通讯功能的终端设备发送或接收的文字或数字信息，以便用户之间进行沟通。为了提高商品的购买力度，以及一些信息的推广强度，部分商家会通过短信向用户发送相关的推送信息，但是，作为用户并不希望接收到此类短信，因此，会将这些短信称为“垃圾短信”。

目前，随着短信内容的多样化，以及用户使用语言的灵活性，现有通过接收到的短信文本中的文字关键词等信息识别垃圾短信，但是，被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信，降低了垃圾短信的识别准确性。

发明内容

有鉴于此，本发明提供一种垃圾短信的识别方法及装置，主要目的在于现有被判白的短信中，仍然会包括除文本中的文字关键词以外的特殊表达方式，仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信的问题。

依据本发明一个方面，提供了一种垃圾短信的识别方法，包括：

获取短信的文本信息；

判断所述文本信息中是否存在异常信息，所述异常信息为不可进行文字语料识别的信息；

若存在异常信息，则对所述异常信息进行预处理；

根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信，所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信；

若为垃圾短信，则将所述垃圾短信进行提示标记。

进一步地，所述获取短信的文本信息之前，所述方法还包括：

根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型。

进一步地，所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符，所述若存在异常信息，则对所述异常信息进行预处理包括：

若存在异常信息，则解析所述异常信息的异常类型；

查找与所述异常类型对应的预置编码表，将所述异常信息与所述预置编码表进行对比，确定出根据所述预置编码表进行转换后的异常信息。

进一步地，所述若存在异常信息，则对所述异常信息进行预处理之后，所述方法还包括：

配置转换后的繁体字信息、和/或拼音信息、和/或热门用语、和/或特殊字符的独热码，并将处理后的文本信息转换为句子向量。

进一步地，所述根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信包括：

将不同时序下的所述独热码及所述句子向量作为所述垃圾短信预测模型中不同时序维度下的预设神经网络的输入进行运算，并通过预设输出函数进行输出，确定短信的文本信息中存在垃圾信息的短信。

进一步地，所述根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司，未经北京奇虎科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711277588.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]垃圾短信的识别方法及装置在审

专利文献下载