[发明专利]一种基于规则与词典的监狱犯人短信自动审核方法有效
申请号: | 201710326939.0 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107168951B | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 李玉军;徐正;油丽娜;张洁 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;H04W4/14 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 叶亚林 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 词典 监狱 犯人 短信 自动 审核 方法 | ||
本发明涉及一种基于规则与词典的监狱犯人短信自动审核方法。本发明解决的问题主要是短文本的多分类问题,将依据监狱短信规定对短信审核的过程转换为对短信进行层层分类的过程,一旦分为规定中的一类,则短信被拦截;本发明解决的另一问题是,避免了由于狱警审核短信的工作量大,短信审核结果难以符合监狱规定的现象。
技术领域
本发明涉及一种基于规则与词典的监狱犯人短信自动审核方法,属于短文本分析的技术领域。
背景技术
随着科技的发展与信息时代的到来,人们每天接触的消息量越来越大,从消息中选取有用的信息就变得重要起来。这些消息中有不少的部分是以短文本的形式存在的,这就促进了短文本分析的产生与发展。短文本具有无语境、信息浓缩度高的特点,使得短文本分析的难度大大增加。
虽然短文本分析的发展迅速,但是对于监狱服刑人员短信的审核仍然缓慢,其中一个重要的原因就是用户数量少。如今的机器学习在各方面的应用都很多,也有对于监狱服刑人员短信审核的应用,如SVM、RNN等。但由于监狱短信不通过率低,正负样本差距过大,使得机器学习的效果不尽人意。
现有技术中的垃圾短信拦截技术已经较为成熟,智能手机多都会自带垃圾短信拦截功能,一些手机软件如360手机卫士、来电通、安卓优化大师、手机管家等都有拦截垃圾短信的功能。垃圾短信拦截的方法一般基于词典与黑白名单实现,也可加入用户反馈机制,以更新词典及黑白名单。但是,垃圾短信拦截技术主要是针对广告的拦截,目的性单一,其词典一般都与广告相关,如果用于监狱短信审核,不能满足监狱要求的多样性,词典也需重构。
发明内容
针对现有技术的不足,本发明提供一种基于规则与词典的监狱犯人短信自动审核方法。
发明概述:
本发明解决的问题主要是短文本的多分类问题,将依据监狱短信规定对短信审核的过程转换为对短信进行层层分类的过程,一旦分为规定中的一类,则短信被拦截;本发明解决的另一问题是,避免了由于狱警审核短信的工作量大,短信审核结果难以符合监狱规定的现象。本发明的技术方案为:
一种基于规则与词典的监狱犯人短信自动审核方法,包括步骤如下:
1)对短信内容进行预处理;
对短信内容进行中文分词;现有技术中中文分词的方法有多种,可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
2)利用短信审核规则对短信内容进行初步审核;所述短信审核规则包括:
2.1)重复短信:对同一监狱犯人在两天内发送或接收的内容重复的短信进行拦截;
2.2)无内容短信:对无短信内容的短信进行拦截;
2.3)外文限制:对包含外文的短信进行拦截;
2.4)数字限制:对于短信内数字数量过大的短信进行拦截;
2.5)钱财限制:对于涉及钱财数目过大的短信进行拦截;涉及钱财数目过大的判断方法为:a、利用正则表达式判断短信内涉及的钱财数目是否超过规定;b、判断中文分词后得到的词组是否包含有关钱财的字眼;如果规定钱财数量不得超过一千元,正则表达式包括@\d{4}千元、@\d万元等。所述短信审核规则根据监狱犯人收发短信的相关规定编写。
3)利用nGram判断短信是否通顺;
3.1)设短信S由词w1,w2,…,wn顺序排列组成,则短信S出现的概率
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710326939.0/2.html,转载请声明来源钻瓜专利网。