[发明专利]一种检察案件办理工作量计算方法及系统有效
申请号: | 202011051142.2 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112163423B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 栗伟;闵新;陈强;覃文军;冯朝路;王子晴;谢维冬 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F40/166;G06F40/126;G06F16/903;G06F16/35;G06F18/214;G06N20/20;G06Q50/18;G06Q50/26 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检察 案件 办理 工作量 计算方法 系统 | ||
1.一种检察案件办理工作量计算方法,其特征在于,包括如下步骤:
步骤1:基于司法专有名词词典的双向最大匹配法,对每个案件的案件摘要数据进行中文分词处理,根据司法专有名词词典,将连续的字符处理为单个词;
步骤2:采用基于TF-IDF的方法对分词之后的词数据进行文本特征的提取,并将提取到的属于同一个案件中的所有文本特征用同一个向量表示;
步骤3:采用权重预设的AdaBoost学习器提取每个案件的案件标签;
步骤4:根据刑法分则规则表,对所有案件标签基于FuzzyWuzzy的字符串模糊匹配方法进行案件分组;
步骤5:对每一组中的每个案件进行编码;
步骤6:对分组后的每组案件,分别计算基于犯罪嫌疑人的案件工作量,以及采用EM算法迭代计算基于办案时长的案件工作量,利用公式(1)将计算得到的两种工作量进行加权求和,得到每个案件的最终案件工作量;利用公式(2)计算每个案件的工作量系数;
式中,Fι表示案件ι的最终案件工作量,表示基于办案时长计算得到的案件工作量的权重,ω表示基于犯罪嫌疑人计算得到的案件工作量的权重;
式中,θ表示一段时间Π内一个检察官需要处理的案件总数;
所述步骤3包括:
步骤3.1:将每个案件对应的向量作为AdaBoost学习器的样本数据,并将所有样本数据分成训练集和测试集两部分;
步骤3.2:并利用公式(3)初始化训练集中每个样本数据的权重λ;
λ=1/φ (3)
式中,φ表示训练集中样本数据的总个数;
步骤3.3:将训练集输入到第一个弱学习器中,训练第一个弱学习器,当第一个弱学习器的学习误差率β1大于等于预设的学习误差率β'时,则表示第一个弱学习器训练结束,并输出权值更新后的训练集;
步骤3.4:当第μ-1个弱学习器训练结束后,将第μ-1个弱学习器输出的权值更新后的训练集输入到第μ个弱学习器中,训练第μ个弱学习器,当第μ个弱学习器的学习误差率βi大于等于预设的学习误差率β'时,则表示第μ个弱学习器训练结束,并输出权值更新后的训练集;
步骤3.5:令μ=1,2,…,Ψ,Ψ表示弱学习器的总个数,依次训练Ψ个弱学习器;
步骤3.6:将训练后的Ψ个弱学习器利用公式(4)进行整合,得到最终的AdaBoost学习器F(Γ;Φ),
Φ=(αμ,βμ) (4)
式中,h(Γ;aμ)表示第μ个弱学习器,αμ表示训练后的第μ个弱学习器中的参数,Γ表示φ个样本数据构成的向量矩阵,βμ表示第μ个弱学习器在Ψ个弱学习器中所占权重;
步骤3.7:将测试集输入到最终的AdaBoost学习器F(Γ;Φ)中进行案件标签的预测,输出每个案件的案件标签;
所述步骤4包括:
步骤4.1:基于Fuzzy Wuzzy的字符串模糊匹配方法,计算提取的案件标签与刑法分则规则表中的每个罪名的编辑距离;
步骤4.2:计算出刑法分则规则表中的所有罪名分别与同一个案件标签的编辑距离,将编辑距离中的最小值对应的罪名作为案件标签代表的罪名;
步骤4.3:将属于同一个罪名的案件标签分为一组,即实现案件的分组;
步骤5中对每个案件进行编码时,制定的编码规则由四位码组成:第一位码采用25个大写英文字母A~Y分别表示案件的25个一级罪名;第二位码采用26个小写英文字母a~z分别表示案件的26个二级罪名;第三位采用10个阿拉伯数字0~9分别表示二级罪名在一级罪名中的顺序码;第四位采用{1,3,5,2,4,6,0}中的任意一个阿拉伯数字表示是否有合并罪以及嫌疑人的比例关系,其中:
第四位中的阿拉伯数字“1”表示无合并罪且犯罪嫌疑人为1人,
第四位中的阿拉伯数字“3”表示有情节较轻的合并罪且犯罪嫌疑人1人,
第四位中的阿拉伯数字“5”表示有情节严重的合并罪且犯罪嫌疑人1人,
第四位中的阿拉伯数字“2”表示无合并罪且犯罪嫌疑人不少于1人,
第四位中的阿拉伯数字“4”表示有情节较轻的合并罪且犯罪嫌疑人不少于1人,
第四位中的阿拉伯数字“6”表示有情节严重的合并罪且犯罪嫌疑人不少于1人,
第四位中的阿拉伯数字“0”表示未作出明确表示的情况;
步骤6中采用EM算法迭代计算基于办案时长的案件工作量,包括:
步骤6.1.1:定义一个检察官一段时间Π内需要处理的案件总数为θ个,其中案件ι的开始办案时刻为Stι,结束办案时刻为Etι,ι=1,2,…,θ,对θ个案件的开始办案时刻、结束办案时刻按照时间先后顺序进行排序,依排序后的开始办案时刻、结束办案时刻作为分割点,将一段时间Π依次分割为2θ-1个时间区间;
步骤6.1.2:根据案件ι的开始办案时刻Stι,结束办案时刻Etι,在2θ-1个时间区间找到需要处理案件ι的所有时间区间,分别定义为表示案件ι所在的第个时间区间,ρ表示包含案件ι的时间区间总个数,定义第个时间区间内需要同时处理的案件总数为则每个案件的初始权重时间区间内每个案件的平均办案时长表示为案件ι的初始工作量表示为
步骤6.1.3:利用公式(6)计算案件ι第χ次迭代时在时间区间内所在权重利用公式(7)计算案件ι第χ次迭代时的工作量
式中,表示案件ι第χ-1次迭代时的工作量,表示案件ε第χ-1次迭代时的工作量,χ=1,2,…,Ω,Ω表示预设迭代次数;
步骤6.1.4:当达到预设迭代次数Ω时,迭代计算得到的即为案件ι基于办案时长的案件工作量;
步骤6中计算基于犯罪嫌疑人的案件工作量,包括:
步骤6.2.1:采用基于条件随机场的命名实体识别技术提取每个案件中犯罪嫌疑人的姓名和犯罪嫌疑人的个数;
步骤6.2.2:定义案件ι中不同姓名犯罪嫌疑人的总个数为则案件ι基于犯罪嫌疑人的案件工作量Tfι表示为
2.一种采用权利要求1所述的一种检察案件办理工作量计算方法的系统,其特征在于,包括数据预处理单元、案件分类单元、案件工作量计算单元,所述案件分类单元包括文本特征提取模块、AdaBoost分类器、模糊匹配模块、案件编码模块;
所述数据预处理单元用于对每个案件中的案件摘要数据进行中文分词处理,得到单个词;
所述文本特征提取模块用于对单个词数据进行文本特征的提取,并将提取到的属于同一个案件中的所有文本特征用同一个向量进行表示;
所述AdaBoost分类器用于提取每个案件的案件标签;
所述模糊匹配模块用于对所有案件标签进行分组;
所述案件编码模块用于对每一组中的每个案件进行编码;
所述案件工作量计算单元用于计算每个案件的最终案件工作量以及工作量系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011051142.2/1.html,转载请声明来源钻瓜专利网。