[发明专利]基于深度神经网络的司法事实查明生成方法、装置、介质有效
申请号: | 202011357568.0 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112347780B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 吴飞;况琨;袁林;孙常龙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F18/214;G06F18/213;G06N3/0464;G06N3/047;G06N3/049;G06N3/08;G06Q50/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 司法 事实 查明 生成 方法 装置 介质 | ||
本发明公开了一种基于深度神经网络的司法事实查明生成方法、装置、介质。本发明针对对话形式的庭审笔录文本数据,利用层次化序列模型提取其特征,获得词级别,句级别和对话级别的向量化表征;然后将事实要素分类任务和缺失事实查明任务作为辅助任务,在多任务学习框架下构建符合司法程序逻辑的事实查明场景;最后将特征提取结果链接组合,在多任务学习框架下利用基于注意力机制的Seq2Seq模型,生成符合庭审记录的司法事实查明结果。本发明将深度序列学习模型应用于司法事实查明自动生成,相比一般文本生成算法,本发明对法律文书中事实性关键信息进行建模,辅助文本生成,有效地保留了原文中事实性要素,保证了生成模型的可控性与可解释性。
技术领域
本发明涉及智能司法辅助处理领域,尤其涉及一种提取保持了庭审笔录对话 结构信息与相关事实要素特征,完成司法事实查明生成的方法。
背景技术
利用自然语言处理技术辅助进行智能司法辅助处理是具有实际应用意义的 一项关键技术,也是自然语言处理技术应用落地的关键领域。相应地,自然语言 处理辅助的文本理解与文本生成已经成为计算机科学与法学学科交叉领域的热 点。
在传统基于深度学习的文本生成算法,一般利用编码器-解码器构成的序列 到序列框架实现。模型通过编码器对源文档的特征进行提取,将之映射到一个高 维空间中的特征向量,再利用解码逐词生成目标文本。但是,这种生成方法忽视 了文本中关键要素和其他文本的区分度,并且在生成目标文本的解码过程中,容 易随着解码序列长度累积更大的误差,得到不尽如人意的生成结果。因此,传统 的方法一般难以取得含有关键信息的生成结果,且无法对结果提供合理解释。
在司法应用领域,法律文件的事实逻辑、可解释性都至关重要,因此本发明 利用了多任务学习方法和层次化特征学习方法有效弥补上述传统文本生成模型 的不足。
发明内容
本发明的目的是克服现有自然语言处理中文本生成技术的不足,提出一种基 于深度神经网络的司法事实查明生成方法,它能够提取保持了关键事实要素信息 的序列化特征,完成裁判文书中事实查明自动生成的方法。本发明具体采用的技 术方案如下:
第一方面,本发明提供了一种基于深度神经网络的司法事实查明生成方法, 其包括如下步骤:
S1:把司法文书中庭审笔录文本与其对应的事实要素标注作为训练数据集, 并利用事实查明中的关键实体信息标注缺失事实;
S2:针对呈对话形式的庭审笔录文本数据,利用层次化序列模型提取其特征, 获得词级别,句级别和对话级别的向量化表征;
S3:将事实要素分类任务和缺失事实查明任务作为辅助任务,在多任务学习 框架下构建符合司法程序逻辑的事实查明场景;
S4:将特征提取结果链接组合,并利用基于注意力机制的Seq2Seq(序列到 序列)模型,生成符合庭审记录的司法事实查明结果;
S5:基于所述训练数据集,通过最小化损失函数对S2~S4构成的网络框架 进行训练,并将训练后的网络框架用于司法文书序列化特征提取与事实查明文本 的自动生成。
在上述方案基础上,各步骤可以采用如下优选的具体方式实现。
作为优选,所述的步骤S1具体包括以下子步骤:
S101:利用正则表达式将事实查明的部分从裁判文书中抽取出来构成训练数 据集,并获取预定义关键事实要素集合F={f0,f1,...,fn-1},其中n为事实要素 数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011357568.0/2.html,转载请声明来源钻瓜专利网。