[发明专利]一种基于转移矩阵构建关系抽取模型的方法有效
申请号: | 201710193366.9 | 申请日: | 2017-03-28 |
公开(公告)号: | CN106970981B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 罗炳峰;冯岩松;贾爱霞;赵东岩 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/279 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 转移 矩阵 构建 关系 抽取 模型 方法 | ||
本发明公开了一种基于转移矩阵构建关系抽取模型的方法。本方法为:1)选择基础关系抽取模型M,其输入为一个句子或描述同一对主体和客体的一组句子,其输出为输入句子或输入的一组句子所描述的关系的分布pi,并在中间结果中生成输入句子或输入的一组句子的向量表示si;2)根据si构建一个转移矩阵Ti;3)将该模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入句子或输入的一组句子可能被标注成的关系的分布oi;4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型。本模型可以免受噪声的影响,从而可以取得更好的关系抽取效果。
技术领域
本发明涉及一种利用转移矩阵增强关系抽取器训练过程中对噪声数据的抵抗能力,从而提高关系抽取性能的方法,属于信息抽取领域。
背景技术
随着信息技术和互联网的发展,人们可以获取到的文本信息变得越来越多,如何利用这些大量的文本信息自动构建知识库,从而使得计算机可以更好地利用蕴含在这些文本中的信息,便成为一项非常重要的问题。
知识库一般由形如(主体,谓词,客体)的三元组构成,比如(中国,首都,北京)这条三元组就蕴含了“中国的首都是北京”这条知识。因而,自动构建知识库的过程就是自动生成这些三元组的过程。关系抽取旨在解决如何自动识别文本中所描述的的两个实例(一个实例可以是一个实体,比如“中国”,也可以是时间、数值等)之间的关系,从而构成三元组填充到知识库当中。
关系抽取任务所使用的数据主要是通过远监督的方法构建的,即利用一些种子知识自动检索出可能阐述这些知识的文字描述,然后使用这些有噪声的数据来训练关系抽取模型。这种方法的好处在于可以低成本的获取大量的训练数据,而缺点则是数据集中会有很大一部分是噪声数据。同时,人工标注的数据也有可能含有噪声,比如人可能会因为粗心而漏标某些数据,或者因为领域知识不足而无法识别一个句子是否在阐述一个关系。由于噪声数据会对模型的训练产生显著的影响,因而一个关系抽取模型的好坏很大程度上取决于它对噪声数据的抵抗能力。
发明内容
本发明的目的是提供一个对训练数据中的噪声有较强抵抗能力的关系抽取模型的构建方法。关系抽取任务的输入可以是一个句子,即判断输入句子所描述的目标主体和目标客体之间的关系;也可以是一组句子,其中每个句子都包含了目标主体和目标客体,即结合这一组句子综合判断目标主体和目标客体之间的关系。假设要抽取|C|个关系,则构建一个|C|×|C|的转移矩阵T,其中矩阵T中的任一元素Tij表示输入句子(或输入的一组句子)所表述的真实关系是i,而它被错误地标注为关系j的概率。如此一来,给定一个基础的关系抽取模型M,设其输出的关系分布为p,在训练过程中本发明便可以不直接用p去拟合有噪声的标注,而是利用转移矩阵T将p转化为其可能被标注成的关系分布o,并利用o去拟合有噪声的标注。通过这种对噪声的显示建模方式,基础关系抽取器M在训练的时候可以免受噪声的影响,从而可以取得更好的关系抽取效果。
为了达到上述目的,本发明的技术方案为:
(1)选择可以生成输入句子的向量表示(或输入的一组句子的整体向量表示)的基础关系抽取模型M,其输出为待处理句子i(或待处理的第i组句子)所描述的关系的分布pi,并在中间结果中生成待处理句子i(或待处理的第i组句子)的向量表示si。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710193366.9/2.html,转载请声明来源钻瓜专利网。