[发明专利]一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法有效
申请号: | 202110349911.5 | 申请日: | 2021-03-31 |
公开(公告)号: | CN112966525B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 魏晓;谢伟 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/906;G06F16/951;G06F40/211;G06F40/284;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 卷积 神经网络 算法 法律 领域 事件 抽取 方法 | ||
1.一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于,所述方法包括以下步骤:
A.数据获取、预处理:
使用网络爬虫爬取公开法律文本语料,对原始法律文本语料进行文本预处理,依次进行分句、分词、去噪,获得可用的法律文本语料数据;
B.法律事件模板定义:
获取法律领域的高频动词、关键名词,对这些词语进行基于距离的相近词聚类,人工根据聚类结果参考相关法律条款定义法律事件类型以及模板;
C.基于远程监督学习的大规模法律事件数据标注:
利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件,构建原始法律事件知识库IE;获取关键事件元素角色,构建动词、名词触发词集;利用中文近义词表对触发词集进行拓展;利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中;
D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统:
法律事件抽取包括法律事件检测和法律事件论元抽取两个子任务;基于NEZHA预训练语言模型获取法律文本的词级语义特征;针对法律事件检测任务与法律事件论元抽取任务分别构建对应的特征向量,组成语句特征矩阵,通过卷积池化操作分别获得两个子任务的语句级语义特征;将词级语义特征分别与两个子任务的语句级语义特征进行拼接获取新的特征向量,分别输入DMCNN神经网络模型进行分类;对于法律事件检测子任务,分类结果包括法律事件类型集;对于法律事件论元抽取任务,分类结果包括对应法律事件类型的事件论元角色集。
2.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤A中,获取可用的法律文本语料数据的具体步骤为:
A1.使用爬虫从法律文书网站爬取公开的法律文书数据;
A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类,使用神经网络模型RCNN训练法律文书数据的罪名分类模型,对剩下的数据进行分类,获得按照罪名分类的法律文书数据;
A3.将法律文书数据的标点符号统一为中文格式,按照包括“问号?,叹号!”的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
A4.使用开源分词工具对句子集合中的每个句子进行分词,得到分词结果;
A5.构建法律领域的专用停用词表,对分词结果进行修正、优化。
3.根据权利要求1中所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤B中,法律事件模板定义方式:
B1.基于步骤A4的分词结果,使用开源词性标注工具对词语进行词性标注,使用TextRank算法获取结果最大的M个动词、N个名词;
B2.基于步骤A4的分词结果,使用Word2Vec算法获取法律文本数据的词向量;
B3.基于步骤B1的结果对名词和动词使用k-means计算语义距离进行聚类,获得语义相近的KV个动词集、KM个名词集;
B4.基于B3的结果集,人工根据经验和法条审核总结法律领域的事件类型以及模板,根据事件抽取任务定义,事件模板包括触发词和事件元素。
4.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤B4中,后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展,或者同时可能新增事件类型以及模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110349911.5/1.html,转载请声明来源钻瓜专利网。