[发明专利]一种基于课程学习的远程监督关系抽取方法有效
申请号: | 201911395765.9 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191461B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 刘琼昕;王佳升;马敬;王鹏;杨敏;卢士帅 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 课程 学习 远程 监督 关系 抽取 方法 | ||
本发明公开了一种基于课程学习的远程监督关系抽取方法,属于人工智能和自然语言处理技术领域。本方法将关系抽取器看作学生网络,针对关系抽取任务,设计一个导师网络来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入,学习出包中每个句子的权重,然后将其反馈到关系抽取器中,使得质量好的句子更多参与到关系抽取器的训练过程中。本方法为了高效地协同训练两个网络,在交替局部梯度下降方法基础上进行改进,提出一种适用于关系抽取任务的联合优化方法。本发明提高了噪声环境下关系抽取的效果,在主流的关系抽取数据集中优于传统方法。
技术领域
本发明涉及一种远程监督关系抽取方法,属于人工智能和自然语言处理技术领域。
背景技术
信息抽取(Information Extraction)是自然语言处理中的一项基本任务,通过对非结构化文本进行处理抽取结构化信息,作为后续自然语言处理任务的输入。在知识爆炸的时代,人们每天都需要面对海量数据,合理利用信息抽取系统高效地处理文本提取有用的信息就变得极为重要。信息抽取作为自然语言处理中极为重要的一环,本身也是由一系列子任务构成的,例如命名实体识别、关系抽取和事件抽取等。
关系抽取(Relation Extraction,RE)是信息抽取的一项关键技术,其目的是挖掘实体间存在的语义关系,对于知识库自动构建、问答系统等领域有着极为重要的意义。远程监督关系抽取(Distant Supervision Relation Extraction,DSRE)通过外部知识库代替人工对语料进行标注,可以低成本地获取大量标注数据,是目前主流的关系抽取方法。
知识库中有大量形如“实体1,实体2,实体1、2关系”的三元组,远程监督将一个无标注语料库对齐到已知的知识库,知识库中的每一条三元组都对应一个句子集合,这种句子集合称为包(Bag)。包中的句子都是从无标注语料库中获得,且同一个包中的句子都含有相同的实体对(即对应三元组中的两个实体)。远程监督关系抽取假设包中的每一个句子都具有对应实体对的关系,这使得在获得大量标注数据的同时,也引入了大量的噪声即错误标注的数据。
远程监督关系抽取的目标是训练一个关系抽取器,然后针对一个未标注的包(在知识库中该包的实体对间不存在关系),预测该包的关系,从而得到一个新的知识(三元组)。训练数据含有大量的噪声会导致神经网络拟合到噪声上,影响关系抽取的效果。目前,缓解噪声数据的主流方法是多实例学习(Multi Instance Learning),即从一个包中只选出一个句子来预测该包对应实体对的关系,但包中往往有多个标注正确的句子,并且有些句子可能隐式地表示了包的关系,因此多实例学习浪费了数据集中大量句子的语义信息。
发明内容
本发明的目的是为了解决现有的远程监督关系抽取方法在噪声环境下抽取效果差,无法充分挖掘包中句子的语义信息的技术问题,创造性地提出一种基于课程学习的远程监督关系抽取方法。
本发明所述方法,将关系抽取器看作学生网络(StudentNet),针对关系抽取任务,设计一个导师网络(MentorNet)来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入,学习出包中每个句子的权重,然后将其反馈到关系抽取器中,使得质量好的句子更多参与到关系抽取器的训练过程中。同时,本方法为了高效地协同训练两个网络,在交替局部梯度下降方法基础上进行改进,提出了一个适用于关系抽取任务的联合优化方法。
有益效果
本发明方法与现有技术相比,具有如下有益效果:
本发明将课程学习领域的导师网络引入到远程监督关系抽取领域,并对相关算法进行改进,提高了噪声环境下关系抽取的效果。本方法制定了一个针对关系抽取的导师网络,使其在训练时考虑了关系抽取器中的特征,更加充分挖掘了包内句子信息。协同训练两个网络使之达到数据正则化的效果,提升了关系抽取器泛化能力。本方法在主流的关系抽取数据集中取得了优于传统方法的效果。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911395765.9/2.html,转载请声明来源钻瓜专利网。