[发明专利]一种用于法律文本信息挖掘的集成学习方法及系统在审

申请号：	201811511621.0	申请日：	2018-12-11
公开（公告）号：	CN109299753A	公开（公告）日：	2019-02-01
发明（设计）人：	段强;李锐;于治楼	申请（专利权）人：	济南浪潮高新科技投资发展有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/332;G06F16/335
代理公司：	济南信达专利事务所有限公司 37100	代理人：	冯春连
地址：	250100 山东省济南市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	法律文本集成学习信息挖掘预处理工程模型预测结果准确度线性SVM 分类器构建预测集成学习系统发现信息文本向量法条关联输出学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种用于法律文本信息挖掘的集成学习方法，涉及信息挖掘和集成学习技术领域，通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型，利用线性SVM分类器学习不同特征工程模型得出的文本向量，并将学习后的线性SVM分类器对预处理后的法律文本进行预测，通过Stacking方法集成预测结果，同时训练并构建集成学习模型，以针对待处理法律文本输出更加全面和准确度更高的预测结果。本方法能更好的综合已有的信息，发现信息中上下文的关联，以此形成更强的非线性划分能力，降低泛化误差，相较于单一模型的预测，在罪名、法条、刑期等内容的预测上准确度更高。另外，本发明还公开一种用于法律文本信息挖掘的集成学习系统。

技术领域

本发明涉及信息挖掘和集成学习技术领域，具体的说是一种用于法律文本信息挖掘的集成学习方法及系统。

背景技术

机器学习领域中，集成学习本身不是一个单独的机器学习算法，它是通过构建多个学习器并将其结合来形成强学习器来完成学习任务。过程中要注意的是弱分类器模型的选择和形式及将弱分类器组合为一个强分类器的方式。

集成学习有Adaboost,Bagging等著名的同源集成方法，即通过对多个同类、同质的模型取平均、取多数票或多次训练取不同权重等方式进行集成学习。另外，还有Stacking的异源集成学习。它将训练集分为几个部分，分别使用不同的基分类器进行训练和预测。这些基分类器可以基于完全不同的思路和方法，具有更高的选择灵活性和结果差异性。然后将这几个基分类器的预测结果建立特征，并输入下一层分类器进行学习。下一层分类器将基分类器生成结果的组合模式作为特征进行进一步学习，从而获得更加泛化的学习能力。该层的预测结果即视为最终结果。

Stacking方法的特点是通过集成多个各有侧重的异源分类器的预测生成新特征，比起相互独立的预测模型，能够增强非线性的表述能力，降低泛化误差，提高预测准确度。理论上，Stacking中的组合模型可以使用各种分类和回归模型。

大数据和互联网的应用给传统的各行各业都开拓了新的思路，在法学研究和法律应用方面，法律数据呈现出数量大、更新快、多样化的特点。将大数据挖掘应用在法律数据相关的信息捕捉、管理、处理中，有助于提高数据处理的效率，将数据的价值充分的利用和体现出来。

具体到司法和法律领域中，使用机器学习和数据挖掘旨在赋予机器理解和学习法律文本并进行分析和判断的能力，以此来完成罪名预测、法条推荐、刑期或罚金预测等有实际应用需求的任务中，有望辅助法官律师等相关人士高效的进行法律判决。全国各地每天产生的法律文书是一个很好的数据挖掘和机器学习的数据源。法律文书往往有着规范的格式、简洁的语言、清晰的逻辑、和明确的判决，经过处理之后辅以自然语言处理的技术，可以用于机器学习和数据挖掘的领域中，做到如判定罪名或推荐法条，预测刑期等常见任务中。

在传统的机器学习中，通常只训练一个模型，通过选择合适的模型、调整参数和对数据的处理来提高预测的准确度。但在实际的判决中，案件的侧重点各有不同，要考虑多种因素；且各个因素间往往存在一定的上下文联系。因此，只通过单个模型往往很难具备广泛的适用性，准确度也会受到影响。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种用于法律文本信息挖掘的集成学习方法及系统。

本发明的一种用于法律文本信息挖掘的集成学习方法，解决上述技术问题采用的技术方案如下：

一种用于法律文本信息挖掘的集成学习方法，首先，收集专业法律工作人员处理过的法律文本作为数据源，对数据源进行预处理，其次，针对预处理结果训练得出不同的特征工程模型，线性SVM分类器学习不同特征工程模型得出的文本向量，随后，线性SVM分类器根据学习结果对预处理后的数据源进行预测，通过Stacking方法集成预测结果，将预测结果用于集成学习模型的训练，训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司，未经济南浪潮高新科技投资发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811511621.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于聚类与信息熵的废旧动力电池一致性指标的优选方法
下一篇：一种无人值守自助收卡打印系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于法律文本信息挖掘的集成学习方法及系统在审

专利文献下载