[发明专利]垃圾短信的识别方法及装置在审
申请号: | 201711277588.5 | 申请日: | 2017-12-06 |
公开(公告)号: | CN108062303A | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 李强;周楠;史东杰 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 短信 识别 方法 装置 | ||
本发明公开了一种垃圾短信的识别方法及装置,涉及一种短信技术领域,主要目的在于现有被判白的短信中,仍然会包括除文本中的文字关键词以外的特殊表达方式,仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信的问题。主要技术方案:获取短信的文本信息;判断所述文本信息中是否存在异常信息,所述异常信息为不可进行文字语料识别的信息;若存在异常信息,则对所述异常信息进行预处理;根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信;若为垃圾短信,则将所述垃圾短信进行提示标记。
技术领域
本发明涉及一种短信技术领域,特别是涉及一种垃圾短信的识别方法及装置。
背景技术
短信是指用户通过手机或其他具有电信通讯功能的终端设备发送或接收的文字或数字信息,以便用户之间进行沟通。为了提高商品的购买力度,以及一些信息的推广强度,部分商家会通过短信向用户发送相关的推送信息,但是,作为用户并不希望接收到此类短信,因此,会将这些短信称为“垃圾短信”。
目前,随着短信内容的多样化,以及用户使用语言的灵活性,现有通过接收到的短信文本中的文字关键词等信息识别垃圾短信,但是,被判白的短信中,仍然会包括除文本中的文字关键词以外的特殊表达方式,仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信,降低了垃圾短信的识别准确性。
发明内容
有鉴于此,本发明提供一种垃圾短信的识别方法及装置,主要目的在于现有被判白的短信中,仍然会包括除文本中的文字关键词以外的特殊表达方式,仅仅对短信中的文字进行训练筛选已经无法准确确定短信是否为垃圾短信的问题。
依据本发明一个方面,提供了一种垃圾短信的识别方法,包括:
获取短信的文本信息;
判断所述文本信息中是否存在异常信息,所述异常信息为不可进行文字语料识别的信息;
若存在异常信息,则对所述异常信息进行预处理;
根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信,所述垃圾短信预测模型用于根据所述处理后的异常信息以及所述文本信息识别短信的文本信息中存在垃圾信息的短信;
若为垃圾短信,则将所述垃圾短信进行提示标记。
进一步地,所述获取短信的文本信息之前,所述方法还包括:
根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型。
进一步地,所述异常信息包括繁体字信息、拼音信息、热门用语、特殊字符,所述若存在异常信息,则对所述异常信息进行预处理包括:
若存在异常信息,则解析所述异常信息的异常类型;
查找与所述异常类型对应的预置编码表,将所述异常信息与所述预置编码表进行对比,确定出根据所述预置编码表进行转换后的异常信息。
进一步地,所述若存在异常信息,则对所述异常信息进行预处理之后,所述方法还包括:
配置转换后的繁体字信息、和/或拼音信息、和/或热门用语、和/或特殊字符的独热码,并将处理后的文本信息转换为句子向量。
进一步地,所述根据不同时序下处理后的异常信息及所述文本信息结合垃圾短信预测模型确定所述短信是否为垃圾短信包括:
将不同时序下的所述独热码及所述句子向量作为所述垃圾短信预测模型中不同时序维度下的预设神经网络的输入进行运算,并通过预设输出函数进行输出,确定短信的文本信息中存在垃圾信息的短信。
进一步地,所述根据时序维度建立具有多个预设神经网络组合结构的垃圾短信预测模型包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711277588.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于传感器件的银纳米线涂覆材料
- 下一篇:燃气轮机及其燃烧器