[发明专利]一种用于法律文本信息挖掘的集成学习方法及系统在审

申请号：	201811511621.0	申请日：	2018-12-11
公开（公告）号：	CN109299753A	公开（公告）日：	2019-02-01
发明（设计）人：	段强;李锐;于治楼	申请（专利权）人：	济南浪潮高新科技投资发展有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/332;G06F16/335
代理公司：	济南信达专利事务所有限公司 37100	代理人：	冯春连
地址：	250100 山东省济南市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	法律文本集成学习信息挖掘预处理工程模型预测结果准确度线性SVM 分类器构建预测集成学习系统发现信息文本向量法条关联输出学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于法律文本信息挖掘的集成学习方法，其特征在于,首先，收集专业法律工作人员处理过的法律文本作为数据源，对数据源进行预处理，其次，针对预处理结果训练得出不同的特征工程模型，线性SVM分类器学习不同特征工程模型得出的文本向量，随后，线性SVM分类器根据学习结果对预处理后的数据源进行预测，通过Stacking方法集成预测结果，将预测结果用于集成学习模型的训练，训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。

2.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，对数据源进行预处理的操作包括：采用jieba或thulac工具构建词库，对数据源的法律文本进行分词和去除停用词处理。

3.根据权利要求2所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，利用现有开源停用词词库，或者，请专业的法律工作人员针对数据源建立分词词库和停用词词库。

4.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，将数据源的法律文本均分成三份，使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。

5.根据权利要求4所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，所述集成学习模型选用Logistic regression，Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵，三维向量矩阵输入Logistic regression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。

6.一种用于法律文本信息挖掘的集成学习系统，其特征在于，该系统包括：

收集模块，用于收集专业法律工作人员处理过的法律文本作为数据源；

预处理模块，用于对数据源中的法律文本进行预处理；

特征提取模块，用于提取数据源中所有法律文本具有的不同特征；

训练构建模块，根据提取的不同特征训练并构建不同的特征工程模型；

线性SVM分类器模块，用于学习不同特征工程模型得出的文本向量，并根据学习结果对预处理后的数据源进行预测；

集成模块，用于通过Stacking方法集成线性SVM分类器模块的预测结果；

学习训练模块，用于学习预测结果并根据预测结果训练集成学习模型；

集成学习模型，用于对待处理法律文本进行更加全面和准确度更高的预测。

7.根据权利要求6所述的一种用于法律文本信息挖掘的集成学习系统，其特征在于，所述预处理模块采用jieba或thulac工具，具体用于数据源的法律文本进行分词和去除停用词处理。

8.根据权利要求6所述的一种用于法律文本信息挖掘的集成学习系统，其特征在于，还包括：

均分模块，用于将数据源中的所有法律文本均分成N等份，其中N为不小于2的自然数，使用10-fold cross validation，对N等份法律文本分别使用N个不同的特征工程模型进行训练。

9.根据权利要求8所述的一种用于法律文本信息挖掘的集成学习系统，其特征在于，所述N为3，均分模块使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。

10.根据权利要求9所述的一种用于法律文本信息挖掘的集成学习系统，其特征在于，所述集成学习模型选用Logistic regression，集成模块通过Stacking方法将线性SVM分类器模块的预测结果保存为三维向量矩阵，三维向量矩阵输入Logistic regression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司，未经济南浪潮高新科技投资发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811511621.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于聚类与信息熵的废旧动力电池一致性指标的优选方法
下一篇：一种无人值守自助收卡打印系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于法律文本信息挖掘的集成学习方法及系统在审

专利文献下载