[发明专利]一种电子证据分类提取方法及系统有效
申请号: | 201611120337.1 | 申请日: | 2016-12-08 |
公开(公告)号: | CN106650799B | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 高敏;江圣航;熊志海 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 白小清 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 证据 分类 提取 方法 系统 | ||
1.一种电子证据分类提取方法,其特征在于,包括步骤,电子证据获取模块调用RDD序列化存储函数读取电子数据,对电子数据进行归一化处理获得标称电子数据集构成测试集;分类训练模块将训练集中的样本数据转化为样本特征和标签,获得标引的电子证据样本集,该样本集中的所有样本数据获得标签,将获得标签的样本数据输入基分类器进行训练,获得电子证据分类器;将测试集中的电子数据输入电子证据分类器进行聚类,为测试集中每个电子数据寻找对应的标签,并分配到与其标签对应的内存分布式数据集RDD分区中,对每个RDD分区进行簇排序,即获得所有核心点的队列,得到不同层次结构上的簇号,合并分区,为每个分区保存一个标签,排除电子数据中的噪声信息,输出聚类结果;模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别,获得分类电子证据;文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据,对目标数据进行文档化处理,送入呈述层模块,呈述层模块对目标数据进行相关描述,自动生成描述型句子。
2.根据权利要求1所述的方法,其特征在于,所述分配到与其标签对应的RDD分区中具体包括,将标称电子数据集通过map键值对函数转化为对应的键值对的形式,根据键值对将标称电子数据集分配到一系列的RDD分区中。
3.根据权利要求1所述的方法,其特征在于,所述对每个RDD分区进行簇排序进一步具体包括:选择一个电子数据样本点放入全局邻居数组,在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点,如果p不是核心点,从全局邻居数组中删除p;如果p是核心点,对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p 到q 的可达距离小于此时q的欧式距离, 更新q 的可达距离为q的欧式距离, 并根据更新的可达距离,调整q 到全局邻居数组中的相应位置;如果q不在全局邻居数组中,则根据p到q 的可达距离将其插入有序队列中,直到核心点p的所有邻居点都插入队列,获得所有核心点的队列即为分区的簇排序。
4.根据权利要求1所述的方法,其特征在于,所述所有样本数据获得标签进一步包括:将训练集中的样本数据转化为样本特征和标签(1,featuress,labels)的形式,采用广播变量的形式将样本特征和标签进行分离,对特征进行广播变量,将特征和标签(1,featuress,labels)转化为特征(1,featuress),标签(1,1,label1),(1,2,label2),(1,3,label3),……(1,n*(n+1)/2,labeln*(n+1)/2),转化获得的标签分配到n*(n+1)/2个RDD分区中,为每个分区保存一个标签,其中,n表示标签的维数。
5.根据权利要求1所述的方法,其特征在于,所述模糊识别具体包括,模糊融合识别模块将电子数据对比度值域区间非线性划分,提取特征,利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离,对卡方距离内的各特征进行权重融合,获得分类结果。
6.根据权利要求2所述的方法,其特征在于,根据任意RDD分区的前边界数据样本和广播变量的后边界点获得键值对map,根据map的方向向前合并簇号,所有RDD分区中的标称数据样本点都根据键值对Map合并簇号,并输出所有标称电子数据对应的簇号,合并的簇号加入map中。
7.根据权利要求1所述的方法,其特征在于,呈述层模块根据特征信息进行完整性检查,获取完整性程度高的电子证据,根据经过完整性检查的特征信息生成固定长度的特征向量,利用投影矩阵将特征向量对应描述句子中的词映射到相同的特征空间获得词序列特征向量,利用电子证据特征向量和对应的词序列特征向量作为训练样本对训练长短期记忆模型生成语言模型,将经过分类的电子证据输入语言模型,自动生成描述型句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611120337.1/1.html,转载请声明来源钻瓜专利网。