[发明专利]一种针对司法裁判文书的两阶段混合式自动摘要方法在审

专利信息
申请号: 202111494073.7 申请日: 2021-12-08
公开(公告)号: CN114169312A 公开(公告)日: 2022-03-11
发明(设计)人: 李波;欧阳建权;黄文鹏 申请(专利权)人: 湘潭大学;湖南海龙国际智能科技股份有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F16/35;G06F40/126;G06N3/04;G06N3/08
代理公司: 北京卓恒知识产权代理事务所(特殊普通合伙) 11394 代理人: 徐楼;卜婷
地址: 411105 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 司法 裁判 文书 阶段 混合式 自动 摘要 方法
【说明书】:

一种针对司法裁判文书的两阶段混合式自动摘要方法,包括以下步骤:1)对裁判文书中关键句子中的相似度进行计算,以及对关键句子的摘要模型进行编码、分类,最后将摘要关键句抽取;2)从裁判文书中抽取出句子组合成关键句子合集;3)将步骤2)中的关键句子合集作为生成式模型的输入,通过模型编码、解码生成文本摘要。本发明能从众多裁判文书中的长篇幅文本进行浓缩和提炼获取精确的有用信息生成摘要。本发明提供的方法生成的摘要可读性强、连续性强、辨识度高,保证本文与摘要之间的忠实度。

技术领域

本发明属于裁判文书数据处理技术领域,具体设计一种针对司法裁判文书的两阶段混合式自动摘要方法。

背景技术

随着信息时代的快速发展,互联网上的数据量呈指数级增长。文本摘要技术通过对文本信息概括、总结,提炼出文章的主旨,利用文摘代替原文章参与索引,可以有效缩短检索的时间,同时也能减少检索结果中的冗余信息,能让用户从大量数据中高效地获取所需信息。

现有的互联网法院等智能系统一般作为法律工作者的辅助工作进行使用,例如,通过语义分析等技术从裁判文书中提取信息,或者通过人工处理的方式构建各个法律要素之间的联系。裁判文书书写规范,然而内容详尽冗长,当前通常通过从裁判文书中抽取权重较大的词语、短语和句子进行组合生成摘要,这种方式生成的摘要语义连贯性较差,缺乏对法律、裁判知识的有效融合,从而导致生成的摘要不连贯、不准确。因此,亟需一种裁判文书摘要生成方法,以确保裁判文书摘要的连贯性、准确性。

司法裁判文书是司法审判活动的最终载体,已有的司法裁判文书是辅助量刑决策和规范裁判尺度的重要依据。但现在已经公开的裁判文书数量已经多达1.2亿篇,如何从众多的裁判文书中获取有用信息是一个亟待解决的问题。自动摘要技术能够对长篇幅文本进行浓缩和提炼,用短篇幅的摘要表示冗长原文本,是解决信息过载问题的重要手段。

文本自动摘要技术按照摘要生成方式的不同可以分为抽取式摘要跟生成式摘要。抽取式方法是将文本摘要任务看作一个分类问题,判断句子是否是摘要句,这种方法保持了与原文的忠诚度,但由于是直接从原文抽取拼接,所以生成的摘要可读性、连续性较差。与抽取式方法相比,生成式方法更贴近人工摘要的过程,它利用深度学习模型学习大量的文本数据,对文本进行编码、解码,通过转述、替换的方法生成抽取内容的摘要。生成式摘要不是从源文档中直接抽取句子,而是通过生成新句子来替代原文句子。生成式方法虽然能够生成新的句子,但是容易出现生成的句子与原文意识相悖的情况,忠实度得不到保证,而且对于长文本,生成式方法容易出现信息丢失的问题。司法裁判文书作为一种篇幅超长的文本,单一的抽取式或生成式方法应用在司法裁判文书中上述缺点会更加突出。因此,本发明提出一种将抽取式方法跟生成式方法结合起来的两阶段混合式自动摘要方法有效的解决了上述问题。

发明内容

针对现有技术的不足,本发明提供了一种针对司法裁判文书的两阶段混合式自动摘要方法。首先采用抽取方式形成关键句子合集,其次将句子合集作为生成方式的输入,通过模型编码、解码生成文本摘要;本发明通过对整篇裁判文书的文本进行浓缩和提炼,减少摘要文本的篇幅,同时确保生成的摘要与原文意思的忠实度、可读性以及连续性,减少了通过人工所生成摘要的文字数量和可信度低。

为了解决上述问题,提供如下技术方案:

一种针对司法裁判文书的两阶段混合式自动摘要方法,该方法包括以下几个步骤:

1)对裁判文书中关键句子的相似度进行计算,并对关键句子的摘要模型进行编码、分类,最后将摘要关键句抽取。

2)从裁判文书中抽取出句子组合成关键句子合集。

3)将步骤2)中的关键句子合集作为生成式模型的输入,通过模型编码、解码生成文本摘要。

作为优选,步骤1)中关键句子的相似度进行计算包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学;湖南海龙国际智能科技股份有限公司,未经湘潭大学;湖南海龙国际智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111494073.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top