[发明专利]基于预训练语言模型的法律文本类案检索方法及系统有效
申请号: | 202210040271.4 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114065760B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李芳芳;苏朴真;邓晓衡;张健 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/194;G06F16/33;G06K9/62 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 丛诗洋 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 语言 模型 法律 文本 检索 方法 系统 | ||
本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统,包括:根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。最大限度的保留了有效文本特征,又减少了文本的长度,同时也保证了文本语义信息不被破坏、强化了重点特征的占比。在数据上、本质上提高了模型的精度和性能。
技术领域
本发明涉及类案检索技术领域,特别涉及一种基于预训练语言模型的法律文本类案检索方法及系统。
背景技术
类案检索,是落实司法责任制要求、推行司法制约监督、促进法律适用统一的一项重要制度。相似案件,通常指要件事实、案情事实相同或相似的案件或者对于案件中事实情节、犯罪主体、犯罪手段、犯罪目的、犯罪结果都相似的案件。类案检索是为了利用已经解决了的案例,当遇到相似的案例时可以提供给法官一些可供参考的方法。目前虽然形成了若干类案检索平台,但是其在类案智慧判断、类案检索方式、类案对象归纳与排列、类案检索服务等方面存在一定的不足。当法官进行类案检索时采用的方法绝大部分都是利用案件中的关键字对卷宗集进行检索,但这样并不精准,检索的结果往往是数量巨大的案件,下一步则需要法官人工阅读案例,逐个比对判断相似与否这就耗费了很多时间。而随着互联网时代的到来,人工智能时代的到来,通过计算机辅助法官形成智慧法院已经成为现实。
目前对于法律文本类案检索的方法主要有基于Bm25、Jaccard相似度等经典算法和基于Word2Vec、RCNN、LSTM等传统深度神经网络两个大类。但这两类方法都存在着一定的问题和不足,基于Bm25、Jaccard相似度等经典算法对于文本长度没有限制,但其检索性能相比于深度神经网络来说要逊色很多。而对基于深度神经网络的方法来说,往往需要十分充足的数据量来对模型进行训练以支撑后续的检索效果,同时模型性能也十分受限于文本长度。
发明内容
本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统,其目的是为了提高模型的精度和推理能力,提升模型的检索性能。
为了达到上述目的,本发明提供了一种基于预训练语言模型的法律文本类案检索方法,包括:
步骤1,根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;
步骤2,将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;
步骤3,对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;
步骤4,通过对数据进行传递闭包,扩充训练数据中的正样本,并对所述正样本进行对抗训练,采用R-drop的方法提高模型的性能,使模型更好地学习到相似案例之间的关系;
步骤5,采用Roberta预训练模型结合模型进行预测,将对抗训练和R-drop的引入作为输入样本,通过Dropout来生成两次稍有不同的样本,计算出整体模型的损失,增强模型的全局特征提取能力;
步骤6,获取多个查询主句案例,对每一个查询主句案例对应的检索案例池进行筛选,利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。
其中,所述步骤2包括:
步骤21,将所述输入数据中的主句和被检索句采用根据特殊标点符号作为分句函数判断依据的标准对输入数据进行初步切分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210040271.4/2.html,转载请声明来源钻瓜专利网。