[发明专利]一种基于规则与词典的监狱犯人短信自动审核方法有效
申请号: | 201710326939.0 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107168951B | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 李玉军;徐正;油丽娜;张洁 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;H04W4/14 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 叶亚林 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 词典 监狱 犯人 短信 自动 审核 方法 | ||
1.一种基于规则与词典的监狱犯人短信自动审核方法,其特征在于,包括步骤如下:
1)对短信内容进行预处理;对短信内容进行中文分词;
2)利用短信审核规则对短信内容进行初步审核;所述短信审核规则包括:
2.1)重复短信:对同一监狱犯人在两天内发送或接收的内容重复的短信进行拦截;
2.2)无内容短信:对无短信内容的短信进行拦截;
2.3)外文限制:对包含外文的短信进行拦截;
2.4)数字限制:对于短信内数字数量过大的短信进行拦截;判断数字数量过大的标准是,短信中数字的数量超过7个或数字个数占短信总字符个数的比例大于30%;
2.5)钱财限制:对于涉及钱财数目过大的短信进行拦截;涉及钱财数目过大的判断方法为:a、利用正则表达式判断短信内涉及的钱财数目是否超过规定;b、判断中文分词后得到的词组是否包含有关钱财的字眼;
3)利用nGram判断短信是否通顺;
3.1)设短信S由词w1,w2,...,wn顺序排列组成,则短信S出现的概率
P(S)=P(w1w2...wn)=P(w1)P(w2|w1)...P(wn|w1w2...wn-1) (2.1);
3.2)简化式(2.1)得:P(S)=P(w1)P(w2|w1)...P(wn|wn-1) (2.2);
3.3)计算P(wi|wi-1),根据大数定律得:
其中,#(wi-1,wi)为语料库中wi-1和wi前后相邻出现的次数,#(wi-1)为语料库中wi单独出现的次数;
3.4)将P(wi|wi-1)与阈值p对比,当P(wi|wi-1)≥p时,进入步骤4),否则,拦截短信;
4)利用朴素贝叶斯模型对短信内容进行分类;
首先,对监狱提供的所有短信进行主题标签的人工标定,短信和与短信对应的主题标签共同构成朴素贝叶斯模型的先验样本M0;根据先验样本M0建立关键词典;
计算关键词典中的词w为主题i的概率为Pi(w),其中,#(w)为词w在先验样本M0中出现的次数,#i(w)为词w在先验样本M0所有主题为i的短信中出现的次数;假设各词对短信的影响是互相独立的,新的短信S含有关键词w1,w2,...,wn,关键词w1,w2,...,wn被判为主题i的先验概率为Pi(w1),Pi(w2),...,Pi(wn),则新的短信S被判为主题i的后验概率为:
Pi(S)=1-(1-Pi(w1))(1-Pi(w2))...(1-Pi(wn))+Pi(w1)Pi(w2)...Pi(wn) (3.1)
则新的短信S不通过的概率为:
P(S)=∑Pi(S),i为禁止通过主题; (3.2)
当P(S)大于阈值W时,拦截该短信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710326939.0/1.html,转载请声明来源钻瓜专利网。