[发明专利]一种挖掘人民调解中新型矛盾纠纷的系统及方法有效
申请号: | 201910347456.8 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110188092B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 张江鑫;金涌涛 | 申请(专利权)人: | 浙江工业大学;银江股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06Q50/18 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 人民 调解 新型 矛盾 纠纷 系统 方法 | ||
1.一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述系统包括以下模块:
数据获取模块,从一个或多个系统中获取所有与人民调解案件相关的原始数据;
数据清洗模块,对原始数据进行一种或多种清洗操作获取有效数据;
网络热词获取模块,获取热点词汇,避免切词过程中被过分切割或过滤;
特征向量构建模块,对有效数据进行提取、换算、变形,引入案件地理信息,获得表征人民调解案件的特征向量;特征向量是案件内容的数字化形式,案件内容中的每个词都是组成该案件特征向量的子向量;
新型矛盾纠纷挖掘模块,根据文档集中各文档的特征向量,挖掘出隐藏在文档中新型矛盾纠纷;
热门新型矛盾纠纷标注模块,引入时序因素,添加时序筛选机制,筛选出热门新型矛盾纠纷案件集,并自动添加对应标注。
2.如权利要求1所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述数据清洗模块的处理过程为:
2.1数据去重:识别从不同系统获取的数据是否存在内容完全相同的数据,进行去重;
2.2去除缺失数据:当某一属性存在数据缺失时,由于本系统的特殊性,无法进行填充处理,所以去除该属性为空的那一条数据;
2.3去除无用数据:设置数据质量阈值,当数据质量低于阈值的时候删除该条数据;其中,数据质量计算公式如下式所示:
M=(αF+βS+μD+ωK)×Len
其中,M为数据质量,F为归一化处理后的申请人完整度,S为归一化处理后的案件描述完整度,D为归一化处理后的案件解决方案完整度,K为归一化处理后的案件时间地点完整度,Len为归一化处理后的案件长度,α,β,μ,ω为各项指标的系数,归一化方法选用最大最小法;
2.4去除无用内容,找出案件内容中存在的固定格式,去除普遍存在的冗余内容,避免这些冗余的内容对后续的算法产生影响;
2.5统一数据水平名称,通过频数统计观察数据中存在的水平名称,然后通过字典将含义相同的字段进行替换。
3.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述网络热词获取模块中存储有用词字典,网络热词获取模块自动获取各网络数据源中的热点词汇,若获取的热点词汇已存在于有用词字典,则不再重复添加;若获取的热点词汇不存在于有用词字典,将其与有用词字典中已有词进行相似度比较,若相似度大于相似度阈值,则不再添加;若不满足上述两种情况,则将该热点词汇添加至有用词字典。
4.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述特征向量构建模块的处理过程为:
3.2.1中文词语切割:将一长段的中文句段,分离切割成字、词和短语的形式,去除无用的词,保留中文句段中能够反映其主要内容的主干部分;
3.2.2特征向量计算:将案件集的案件内容切词后得到一个数据集,通过word2vec算法进行向量化处理,终得到反映整个案件集的向量集,每一个案件的案件内容对应一个向量集中的向量,同时引入案件的地理信息,经过变换与计算后添加至每个案件对应向量。
5.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,新型矛盾纠纷挖掘模块中,“挖掘新型矛盾纠纷”,具体是指,采用离群点检测模型将不同于主体内容的案件筛选剥离,经过多次迭代得到新型矛盾纠纷,最后通过人工判断,定义新型矛盾纠纷的名称;过程如下:
5.1离群点检测模型:FindCBLOF算法计算每个向量基于假设簇的局部离群点因子,通过统计学方法定义向量和簇之间的相似性,即向量属于簇的概率;然后进行分簇,找出word2vec算法输出的向量集中的簇,并把它们按大小降序排列;FindCBLOF假定大部分向量都不是离群向量,它使用一个参数来区别大簇和小簇以得到离群点;
5.2迭代模块:将分离出来的离群向量有限次地输入离群点检测模型,每一次迭代都输出离群向量集对应的文本集,直至结果到达某一理想阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学;银江股份有限公司,未经浙江工业大学;银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910347456.8/1.html,转载请声明来源钻瓜专利网。