[发明专利]短信的审核系统和方法以及构建短信审核模型方法有效
申请号: | 201710778882.8 | 申请日: | 2017-09-01 |
公开(公告)号: | CN107612893B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 孙振江;刘豹;陈钰;柯锦灿 | 申请(专利权)人: | 北京百悟科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08;H04W4/14;H04W12/00;G06F16/955;G06F16/951;G06F40/284 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 100102 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短信 审核 系统 方法 以及 构建 模型 | ||
1.一种带URL短信的审核系统,包括:
实时抓取模块,用于通过爬虫程序对待审核带URL短信中的URL进行抓取,得到待审核带URL短信的URL对应的网页内容,并将网页内容进行处理得到网页内容特征关键词;
审核模型模块,用于将所述网页内容特征关键词和通过对所述待审核带URL短信的短信内容进行分词提取得到的短信内容特征关键词结合,并输入审核模型经过模型计算得到待审核带URL短信的审核类型结果,然后将待审核带URL短信发送通道的允许发送类型和审核类型结果进行比较,得到审核通过或拦截的结果;其中,所述审核模型是预先通过模型训练模块获取已审核带URL短信的短信内容特征关键词、URL对应的网页内容特征关键词和审核标记类型结果,并利用所述已审核带URL短信的短信内容特征关键词、URL对应的网页内容特征关键词和审核标记类型结果通过机器学习的方式进行建模而得到的。
2.根据权利要求1所述的审核系统,其中,在实时抓取模块之前还包括URL检测模块,用于检测待审核短信是否包含URL,如果不包含则得到无需URL审核的结果,如果包含URL则提取出URL、短信内容及发送通道允许发送类型,并将其输入与之连接的下一模块。
3.根据权利要求2所述的审核系统,其中,在URL检测模块和实时抓取模块之间还包括URL内容模块,所述URL内容模块包括URL内容库,所述URL内容库保存有模型训练模块和实时抓取模块获得的所有URL对应的网页内容特征关键词,所述URL内容模块在URL内容库中匹配所述URL检测模块提取的URL所对应的网页内容特征关键词,如果URL内容库中包含有所述URL对应的网页内容特征关键词,则将所述网页内容特征关键词输入所述审核模型模块,否则将所述URL输入实时抓取模块。
4.根据权利要求3所述的审核系统,其中,在所述URL检测模块和URL内容模块之间还包括纠错匹配模块和/或URL黑白名单模块,所述纠错匹配模块和URL黑白名单模块位置不分先后;其中:
纠错匹配模块,接收所述URL检测模块提取的短信内容,将短信内容进行处理,得到短信内容特征关键词,将所述短信内容特征关键词与缓存的纠错短信进行相似度匹配,若相似度超过一定阈值且发送通道允许发送类型一致,则按照纠错短信的审核结果进行拦截或放行,否则将短信内容特征关键词输入与之连接的下一模块;
URL黑白名单模块,包括URL黑白名单库,接收所述URL检测模块提取的URL,将所述URL与URL黑白名单库中的URL地址进行比对,若所述URL包含在URL黑白名单库中,则根据比对结果和发送通道允许发送类型得到审核通过或拦截的结果,否则进入URL内容模块。
5.根据权利要求4所述的审核系统,其中,还包括后台管理模块,用于将URL地址放入URL黑白名单库,对审核模型模块的审核结果进行纠错,并将纠错短信保存至纠错匹配模块和模型训练模块;
所述模型训练模块利用所述纠错短信定时进行训练,更新所述审核模型。
6.根据权利要求4或5中所述的审核系统,其中,
所述纠错匹配模块用于将短信内容进行分词,并利用NLP自然语言分析技术和TF-IDF算法提取特征关键词得到短信内容特征关键词;
所述实时抓取模块用于将网页内容进行分词,并利用NLP自然语言分析技术和TF-IDF算法提取特征关键词得到网页内容特征关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百悟科技有限公司,未经北京百悟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710778882.8/1.html,转载请声明来源钻瓜专利网。