[发明专利]一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法在审
申请号: | 202110480675.0 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113326371A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 李书棋;高阳 | 申请(专利权)人: | 南京大学;江苏万维艾斯网络智能产业创新中心有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/383;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 房小颖 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 训练 语言 模型 噪声 干扰 远程 监督 信息 事件 抽取 方法 | ||
本发明提供一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,属于计算机技术领域。方法使用综合知识辅助模型进行判断,通过引入海量文本预训练而成,包含了大量语义语法知识信息的预训练语言模型作为事件抽取模型的网络结构单元,并使用混合抗噪声干扰的远程监督特征的模型算法,加入圆形约束条件下的梯度方向对抗干扰训练,该方法不仅能表示更加丰富的文本信息,同时也能在引入远程监督特征时,通过对抗干扰训练,增加模型对噪声误差的抵抗能力。
技术领域
本发明涉及一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,特别是涉及计算机数据处理技术领域。
背景技术
随着互联网时代下信息化建设的不断深化,海量互联网信息呈现出爆发式的增长,如何利用互联网信息辅助行业决策的制定,成为企业甚至政府国家当下关注的重点。来自互联网的信息往往以文字的形式出现,通常来自新闻文稿、论坛回复等渠道,一般呈现出无结构、多冗余的特性,需要加以阅读理解定位到文字中的关键信息,过滤无关内容。事件抽取即是将非机构化文本的数据内容以结构化的形式进行呈现,将文字中的表达关键意图以事件为单位进行提取,将无结构的文字信息转换为机构化的事件信息,进而用于后续的趋势分析、事理知识图谱建立、舆情消息预警等一系列工作之中,是信息提取工程中重要的一环。
传统的事件提取往往依赖于人工的全面参与,面对海量的互联网资讯信息,传统的事件分析借助人工在庞大的文章报告中阅读查找相关信息数据,并进行整理记录,需要消耗大量人力资源。为解决信息结构化的过程中消耗大量人力的问题,近年来提出使用机器学习的方式对事件模式进行识别提取。机器学习的方式通过识别文字中的事件模式,将符合该模式的文本片段以结构化的方式进行提取,能够实现批量化的机器文本处理,大大改善了人工阅读提取文字结构化信息中的效率问题。但传统机器学习事件模式模板的制定依旧需要依赖领域内专家的知识,借助深度学习通过标注过的数据,自动学习相应的事件模式特征,成为了近年来事件结构化抽取的新方向。考虑到互联网信息庞大,内容种类复杂繁多,提高深度学习模型在不同事件间的迁移和泛化能力,成为了互联网事件信息抽取的一个难题。通常做法是使用远程监督的方式,引入外部的知识辅助模型的预测。远程监督算法假设:对于一个已有的知识图谱中的一个结构化事件,假设外部知识库中任何包含其中实体的句子,在一定程度上都反映了这种关系。基于这个假设,远程监督算法可以基于一个标注好的小型知识图谱,给外部文档库中的句子标注关系标签,相当于做了样本的自动标注,因此是一种半监督的算法。但远程监督除了带来外部的知识信息外,同时也会带来错误的指导信息,引入了噪声的干扰影响模型的判断的准确性。RNN和CNN在文本表示能力上存在的不足也影响了事件的预测提取。因此,研究如何使用表达能力更强的神经网络模型和使用外部知识辅助深度模型进行事件结构化抽取,并同时减少误差噪声干扰是需要考虑的问题。
发明内容
发明目的:一个目的是提出一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,以解决现有技术存在的上述问题,丰富文本信息的同时,通过对抗干扰训练,增加模型对噪声误差的抵抗能力。
技术方案:第一方面,提出了一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,该方法包括如下步骤:
步骤1、训练数据语料采集,通过爬虫获取的互联网文本数据,将文本形式的数据通过爬虫以.txt文件形式进行存储。
步骤2、对标注数据进行预处理操作,包括去除html标签和特殊符号,将文本以句子或段落的形式进行分割为短文本。
步骤3、根据事件定义对文本存在事件的事件触发词、主体、客体、时间、地点、事件类型进行标注,并将标注的数据补充加入远程监督知识库,完成数据的标注;将标注后的数据和远程监督知识库进行匹配,将匹配成功的触发词加入该样本的远程监督信息中,并按照7:1:2的比例分为训练集、验证集和测试集。
步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;江苏万维艾斯网络智能产业创新中心有限公司,未经南京大学;江苏万维艾斯网络智能产业创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110480675.0/2.html,转载请声明来源钻瓜专利网。