[发明专利]一种针对司法裁判文书的两阶段混合式自动摘要方法在审
| 申请号: | 202111494073.7 | 申请日: | 2021-12-08 |
| 公开(公告)号: | CN114169312A | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 李波;欧阳建权;黄文鹏 | 申请(专利权)人: | 湘潭大学;湖南海龙国际智能科技股份有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/35;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 北京卓恒知识产权代理事务所(特殊普通合伙) 11394 | 代理人: | 徐楼;卜婷 |
| 地址: | 411105 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 司法 裁判 文书 阶段 混合式 自动 摘要 方法 | ||
1.一种针对司法裁判文书的两阶段混合式自动摘要方法,其特征在于,该方法包括以下几个步骤:
1)对裁判文书中关键句子的相似度进行计算,并对关键句子的摘要模型进行编码、分类,最后将摘要关键句抽取;
2)从裁判文书中抽取出句子组合成关键句子合集;
3)将步骤2)中的关键句子合集作为生成式模型的输入,通过模型编码、解码生成文本摘要。
2.根据权利要求1所述的针对司法裁判文书的两阶段混合式自动摘要方法,其特征在于,步骤1)中关键句子的相似度进行计算包括:
步骤1.1)对裁判文书进行分句,然后在裁判文书中找到人工标准的句子,再从原文中寻找出相似度最高的句子,作为抽取式摘要的标签数据集;通过余弦相似度计算人工摘要中的句子与源文档中句子的相似度得分,选择源文档中得分最高的句子,即关键句子。
3.根据权利要求1或2所述的针对司法裁判文书的两阶段混合式自动摘要方法,其特征在于,步骤1)中还包括:
步骤1.2)文本向量化,通过相似度计算后获得的句子与裁判文书中的原文在同一行中,采用jieba对源文本、标签数据、人工摘要进行分词;在分词过程中,爬取法律名词作为词库的补充,然后再使用BERT模型进行词向量化。
4.根据权利要求1-3中任一项所述的针对司法裁判文书的两阶段混合式自动摘要方法,其特征在于,步骤1)中对关键句子的摘要模型进行编码包括:
抽取式模型编码;在编码层,词嵌入采用目标词嵌入向量,对于一篇有n个句子的文本D={S1,S2,……,Sn},通过两个特殊标记进行预处理;首先,在每个句子的句首插入[CLS]标记、句尾插入[SEP]标记组成输入;[CLS]标记代表当前句子的向量,[SEP]标记代表分句用于切分文本中的句子;在词嵌入的基础上,还设有输入的位置嵌入和分段嵌入;
所述位置嵌入;将单词的位置信息编码为特征向量,位置向量采用了《Attention isAll You Need》中的方案:
PE(pos,2i)=sin(pos/100002i/dmodel);
PE(pos,2i+1)=cos(pos/100002i/dmodel);
式中,pos表示词在句中的位置,取值范围为[0,n];i指的是词向量的维度;dmodel为BERT的输入为128-1024,优选为256-512;
所述分段嵌入;用于区分两个句子,不同句子之前分别为A和B标记,所以输入的句子表示为(EA,EB,EA,EB,……);将词嵌入、位置嵌入和分段嵌入表示拼接为BERT模型输入;经由BERT模型预训练层后得到的句向量X=(X1,X2,……,Xn)=BERT(sent1,sent2,sent3,……,sentn),其中senti表示为原裁判文书的第i个句子,Xi对应的senti经BERT编码后的向量,Xi需要处理的第i个向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学;湖南海龙国际智能科技股份有限公司,未经湘潭大学;湖南海龙国际智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111494073.7/1.html,转载请声明来源钻瓜专利网。





