[发明专利]一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法有效
申请号: | 202110349911.5 | 申请日: | 2021-03-31 |
公开(公告)号: | CN112966525B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 魏晓;谢伟 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/906;G06F16/951;G06F40/211;G06F40/284;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 卷积 神经网络 算法 法律 领域 事件 抽取 方法 | ||
本发明公开了一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,使用网络爬虫爬取公开法律文本语料,对原始语料进行文本预处理,获得可用的法律文本语料数据;获取法律领域的高频动词、关键名词,对词语进行聚类;构建原始法律事件知识库IE,在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注;使用获得的大规模法律事件预料数据,实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注,利用预训练语言模型和卷积神经网络算法挖掘法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果。
技术领域
本发明属于法律智能领域,特别涉及一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法。
背景技术
随着人工智能应用于越来越多的领域和场景,法律智能也成为目前热门的研究方向。一个司法案件中包含了很多要素,如实体、关系以及事件等。通过事件刻画司法案件,不仅能够将一个复杂的案件拆解,对其进行重构和表示,而且更能通过一些关键事件的抽取,从而对案件的量刑进行评估。
目前,事件抽取的方法可以大致分为两类——基于模式匹配的方法和基于机器学习的方法。早期的事件抽取大多都是基于模式匹配的方法,基于语法树或者正则表达式等方法利用人工制定大量的规则或模式。基于模式匹配的方法在特定领域可以达到较高的正确率,但召回率较低。同时可移植性很差,对于新的领域需要耗费大量的人工制定新的规则或模式。基于机器学习的方法大致分为管道抽取和联合抽取两种。管道抽取将事件抽取转化为多阶段的分类问题,顺序执行事件检测任务和事件元素识别任务;联合抽取则考虑到事件触发词与事件元素之间的相互影响,将各个分类模型整体优化,并加入全局特征,对事件类型和事件元素进行联合抽取。
到目前为止,基于机器学习的方法在事件抽取任务上取得了较好的效果。但是这种基于监督学习的事件抽取方法严重依赖于人工标注的训练数据,大多实验结果都是基于ACE2005的数据集。然而,在法律特定领域,由于数据标注成本高,没有大规模的法律事件中文语料数据。
发明内容
为了解决现有技术问题,本发明的目的在于克服已有技术存在的不足,提供一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,能基于远程监督学习的实现法律事件语料数据的大规模自动标注,在此基础上利用预训练语言模型和卷积神经网络算法挖掘了法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果,能大为减少人工定义事件的时间成本和劳动成本,提升法律事件抽取的效果。
为达到上述发明创造目的,本发明采用如下技术方案:
一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,所述方法包括以下步骤:
A.数据获取、预处理:
使用网络爬虫爬取公开法律文本语料,对原始法律文本语料进行文本预处理,依次进行分句、分词、去噪,获得可用的法律文本语料数据;
B.法律事件模板定义:
获取法律领域的高频动词、关键名词,对这些词语进行基于距离的相近词聚类,人工根据聚类结果参考相关法律条款定义法律事件类型以及模板;
C.基于远程监督学习的大规模法律事件数据标注:
利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件,构建原始法律事件知识库IE;获取关键事件元素角色,构建动词、名词触发词集;利用开源中文近义词包对触发词集进行拓展;利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中;
D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统,法律事件检测任务以及法律事件论元抽取任务均使用该法律事件抽取系统,且两者的特征输入存在差别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110349911.5/2.html,转载请声明来源钻瓜专利网。