[发明专利]一种基于规则与词典的监狱犯人短信自动审核方法有效
申请号: | 201710326939.0 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107168951B | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 李玉军;徐正;油丽娜;张洁 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;H04W4/14 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 叶亚林 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于规则与词典的监狱犯人短信自动审核方法。本发明解决的问题主要是短文本的多分类问题,将依据监狱短信规定对短信审核的过程转换为对短信进行层层分类的过程,一旦分为规定中的一类,则短信被拦截;本发明解决的另一问题是,避免了由于狱警审核短信的工作量大,短信审核结果难以符合监狱规定的现象。 | ||
搜索关键词: | 一种 基于 规则 词典 监狱 犯人 短信 自动 审核 方法 | ||
【主权项】:
1.一种基于规则与词典的监狱犯人短信自动审核方法,其特征在于,包括步骤如下:1)对短信内容进行预处理;对短信内容进行中文分词;2)利用短信审核规则对短信内容进行初步审核;所述短信审核规则包括:2.1)重复短信:对同一监狱犯人在两天内发送或接收的内容重复的短信进行拦截;2.2)无内容短信:对无短信内容的短信进行拦截;2.3)外文限制:对包含外文的短信进行拦截;2.4)数字限制:对于短信内数字数量过大的短信进行拦截;判断数字数量过大的标准是,短信中数字的数量超过7个或数字个数占短信总字符个数的比例大于30%;2.5)钱财限制:对于涉及钱财数目过大的短信进行拦截;涉及钱财数目过大的判断方法为:a、利用正则表达式判断短信内涉及的钱财数目是否超过规定;b、判断中文分词后得到的词组是否包含有关钱财的字眼;3)利用nGram判断短信是否通顺;3.1)设短信S由词w1,w2,...,wn顺序排列组成,则短信S出现的概率P(S)=P(w1w2...wn)=P(w1)P(w2|w1)...P(wn|w1w2...wn‑1) (2.1);3.2)简化式(2.1)得:P(S)=P(w1)P(w2|w1)...P(wn|wn‑1) (2.2);3.3)计算P(wi|wi‑1),
根据大数定律得:
其中,#(wi‑1,wi)为语料库中wi‑1和wi前后相邻出现的次数,#(wi‑1)为语料库中wi单独出现的次数;3.4)将P(wi|wi‑1)与阈值p对比,当P(wi|wi‑1)≥p时,进入步骤4),否则,拦截短信;4)利用朴素贝叶斯模型对短信内容进行分类;首先,对监狱提供的所有短信进行主题标签的人工标定,短信和与短信对应的主题标签共同构成朴素贝叶斯模型的先验样本M0;根据先验样本M0建立关键词典;计算关键词典中的词w为主题i的概率为Pi(w),
其中,#(w)为词w在先验样本M0中出现的次数,#i(w)为词w在先验样本M0所有主题为i的短信中出现的次数;假设各词对短信的影响是互相独立的,新的短信S含有关键词w1,w2,...,wn,关键词w1,w2,...,wn被判为主题i的先验概率为Pi(w1),Pi(w2),...,Pi(wn),则新的短信S被判为主题i的后验概率为:Pi(S)=1‑(1‑Pi(w1))(1‑Pi(w2))...(1‑Pi(wn))+Pi(w1)Pi(w2)...Pi(wn) (3.1)则新的短信S不通过的概率为:P(S)=∑Pi(S),i为禁止通过主题; (3.2)当P(S)大于阈值W时,拦截该短信。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710326939.0/,转载请声明来源钻瓜专利网。