[发明专利]基于预训练语言模型的法律文本类案检索方法及系统有效
申请号: | 202210040271.4 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114065760B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李芳芳;苏朴真;邓晓衡;张健 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/194;G06F16/33;G06K9/62 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 丛诗洋 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 语言 模型 法律 文本 检索 方法 系统 | ||
1.一种基于预训练语言模型的法律文本类案检索方法,其特征在于,包括:
步骤1,根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;
步骤2,将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;
步骤3,对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;
步骤4,通过对数据进行传递闭包,扩充训练数据中的正样本,并对所述正样本进行对抗训练,采用R-drop的方法提高模型的性能,使模型更好地学习到相似案例之间的关系;
步骤5,采用Roberta预训练模型结合模型进行预测,将对抗训练和R-drop的引入作为输入样本,通过Dropout来生成两次稍有不同的样本,计算出整体模型的损失,增强模型的全局特征提取能力;
步骤6,获取多个查询主句案例,对每一个查询主句案例对应的检索案例池进行筛选,利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。
2.根据权利要求1所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤2包括:
步骤21,将所述输入数据中的主句和被检索句采用根据特殊标点符号作为分句函数判断依据的标准对输入数据进行初步切分;
步骤22,采用jieba词性对初步切分的法律文本句子进行进一步的分词处理,并对分词处理结果进行词性标注,再根据预设的无效词性表对分词后的文本进行词性筛选,过滤掉无效词性的文本,将有效词重组成为有效句后得到初步清洗后的法律文本数据;
步骤23,构建罪名表定位函数,根据句中是否包含罪名表内的罪名条目对初步清洗后的法律文本数据进行句子级的筛选,若当前句中包含罪名表内的罪名条目则保留当前句以及与其相邻的前后距离为2的句子作为相关句子,记录相匹配的罪名条目作为相关罪名,将相关句子重组为处理后的文本,将相关罪名拼接于文本首部得到最终具有关键信息的数据。
3.根据权利要求1所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤3具体包括:
对于位置向量的计算我们采用sin和cos函数进行计算,计算过程公式如下所示:
其中,为位置向量的长度,为词语的位置,代表词语的维度。
4.根据权利要求1所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤4包括:
所述对抗训练的公式如下所示:
其中,D为训练集,x为输入数据,y为标签,为模型参数,为单个数据样本的Loss,为对抗扰动,为对抗扰动的扰动空间。
5.根据权利要求4所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤4中所述对抗训练的步骤具体包括:
将注入训练数据x,其中的目的在于使得取到最大值;
对加以约束使得其绝对值要小于一个常数,形式如公式:
其中,为常数;
对于生成的对抗样本后,以生成的(作为训练数据来最小化Loss以更新参数;
反复执行上述步骤。
6.根据权利要求5所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述的取值以及计算过程包括:
在NLP任务中为了最小化Loss采用的是梯度下降,那么反过来说为了增大单个数据样本的Loss,则需要使梯度上升,故对于的取值为:
为了防止过大同时满足,将进行标准化处理,标准化方式如以下公式所示:
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210040271.4/1.html,转载请声明来源钻瓜专利网。