[发明专利]基于深度神经网络的司法事实查明生成方法、装置、介质有效

申请号：	202011357568.0	申请日：	2020-11-27
公开（公告）号：	CN112347780B	公开（公告）日：	2023-09-12
发明（设计）人：	吴飞;况琨;袁林;孙常龙	申请（专利权）人：	浙江大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F18/214;G06F18/213;G06N3/0464;G06N3/047;G06N3/049;G06N3/08;G06Q50/18
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度神经网络司法事实查明生成方法装置介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度神经网络的司法事实查明生成方法、装置、介质。本发明针对对话形式的庭审笔录文本数据，利用层次化序列模型提取其特征，获得词级别，句级别和对话级别的向量化表征；然后将事实要素分类任务和缺失事实查明任务作为辅助任务，在多任务学习框架下构建符合司法程序逻辑的事实查明场景；最后将特征提取结果链接组合，在多任务学习框架下利用基于注意力机制的Seq2Seq模型，生成符合庭审记录的司法事实查明结果。本发明将深度序列学习模型应用于司法事实查明自动生成，相比一般文本生成算法，本发明对法律文书中事实性关键信息进行建模，辅助文本生成，有效地保留了原文中事实性要素，保证了生成模型的可控性与可解释性。

技术领域

本发明涉及智能司法辅助处理领域，尤其涉及一种提取保持了庭审笔录对话结构信息与相关事实要素特征，完成司法事实查明生成的方法。

背景技术

利用自然语言处理技术辅助进行智能司法辅助处理是具有实际应用意义的一项关键技术，也是自然语言处理技术应用落地的关键领域。相应地，自然语言处理辅助的文本理解与文本生成已经成为计算机科学与法学学科交叉领域的热点。

在传统基于深度学习的文本生成算法，一般利用编码器-解码器构成的序列到序列框架实现。模型通过编码器对源文档的特征进行提取，将之映射到一个高维空间中的特征向量，再利用解码逐词生成目标文本。但是，这种生成方法忽视了文本中关键要素和其他文本的区分度，并且在生成目标文本的解码过程中，容易随着解码序列长度累积更大的误差，得到不尽如人意的生成结果。因此，传统的方法一般难以取得含有关键信息的生成结果，且无法对结果提供合理解释。

在司法应用领域，法律文件的事实逻辑、可解释性都至关重要，因此本发明利用了多任务学习方法和层次化特征学习方法有效弥补上述传统文本生成模型的不足。

发明内容

本发明的目的是克服现有自然语言处理中文本生成技术的不足，提出一种基于深度神经网络的司法事实查明生成方法，它能够提取保持了关键事实要素信息的序列化特征，完成裁判文书中事实查明自动生成的方法。本发明具体采用的技术方案如下：

第一方面，本发明提供了一种基于深度神经网络的司法事实查明生成方法，其包括如下步骤：

S1：把司法文书中庭审笔录文本与其对应的事实要素标注作为训练数据集，并利用事实查明中的关键实体信息标注缺失事实；

S2：针对呈对话形式的庭审笔录文本数据，利用层次化序列模型提取其特征，获得词级别，句级别和对话级别的向量化表征；

S3：将事实要素分类任务和缺失事实查明任务作为辅助任务，在多任务学习框架下构建符合司法程序逻辑的事实查明场景；

S4：将特征提取结果链接组合，并利用基于注意力机制的Seq2Seq(序列到序列)模型，生成符合庭审记录的司法事实查明结果；

S5：基于所述训练数据集，通过最小化损失函数对S2～S4构成的网络框架进行训练，并将训练后的网络框架用于司法文书序列化特征提取与事实查明文本的自动生成。

在上述方案基础上，各步骤可以采用如下优选的具体方式实现。

作为优选，所述的步骤S1具体包括以下子步骤：

S101：利用正则表达式将事实查明的部分从裁判文书中抽取出来构成训练数据集，并获取预定义关键事实要素集合F＝{f₀，f₁，...，f_n-1}，其中n为事实要素数量；