[发明专利]一种基于多任务多示例的远程监督关系抽取方法有效
申请号: | 202011362711.5 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112395393B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 高明;王嘉宁;蔡文渊;徐林昊;周傲英 | 申请(专利权)人: | 华东师范大学;上海宏路数据技术股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 示例 远程 监督 关系 抽取 方法 | ||
本发明公开了一种基于多任务多示例的远程监督关系抽取方法,其特点是采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,具体包括:数据预处理、输入表征、抽象语义表示、实体类型表征和多任务多示例关系抽取等步骤。本发明与现有技术相比具有方法简便,有效解决了噪声、训练不充分和数据的类不均衡问题,有效降低噪声对分类的影响,提高真实句子对分类的贡献,对缓解噪声和NA对分类的影响,具有一定的实用价值。
技术领域
本发明涉及知识图谱的自然语言处理与信息抽取技术领域,尤其是一种基于多任务多示例的远程监督关系抽取方法。
背景技术
目前,包括文本摘要、机器翻译、问答和推荐等领域均离不开信息抽取构建好的结构化知识库。信息抽取作为一种人工智能下的自然语言处理技术,以其能够高效地从非结构化数据中提取结构化知识的优势,已然成为知识图谱构建的必要过程。随着计算机互联网的快速发展以及移动端的普及,非结构化的海量数据日益激增,例如每日的聊天信息、新闻推送、网站的日志数据等,这些非结构化的数据构成了一个个大大小小的知识,大量的知识被存储在云端,因为这些信息绝大多数都是以非结构化的文本形式存在,如何快速自动地从这些非结构的文本中提取有价值的信息,进一步缓解信息迷航问题,是近年来逐渐吸引研究者们的关注。
关系抽取是信息抽取重要的步骤,其目标通过对从非结构化的文本进行语义提取和表征,根据相应的实体对来预测其语义关系。关系抽取可以分为三大类,第一类以无监督为主,即通常在没有关系标签的条件下,根据语料的句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语。这一类方法可以通过对依存关系树进行分析,根据对依存关系的模式匹配和规则设计来提取句子中的成分,其优点在于可以免于人工标注数据,且可以保留原生态的关系描述,缺点在于泛化能力不足,提取能力有限;第二类以有监督为主,对实体和文本通过特征工程或表征学习来提取句法或语义信息,并通过分类器完成对关系的分类。该方法通过学习一个映射函数,使得每个实体对及文本描述通过特征映射方式获取每个类的概率分布,具有一定的泛化能力,但需要大量的人工标注数据;第三类则以远程监督方法为主,将文本与现有知识库进行启发式地标注构建大规模语料后,再采用有监督的方法进行学习。其中第三类为目前最为常用的方法,它可以解决第一类传统方法泛化能力差的问题,也可以缓解第二类方法中大量人工标注消耗问题,虽然远程监督关系抽取作为一个新的研究点,在带来价值的同时也存在着许多的挑战,主要有以下三个方面的问题:
1)噪声问题:远程监督方法基于一种过强的假设,即如果两个实体在知识库中具有某种关系,任意一个包含这两个实体的文本都描述了这种关系,显然这个假设不一定成立,因此可能会引入许多错误标注的数据,因此需要考虑如何准确的识别出噪声,或间接地降低噪声对分类的影响。
2)训练不充分问题:在现实世界中,只有很少部分的实体对经常出现在语料中,而大多数的实体对出现频率很低,导致这些出现频率低的实体训练语料少,训练不充分。
3)数据的类不均衡:在远程监督的关系抽取数据集中,普遍存在类不均衡问题,尤其是NYT数据集,无关(NA)类对应的数据量占总数据量的90%以上,在训练和测试时,很容易被直接预测为NA类,因此需要考虑如何避免NA对分类的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;上海宏路数据技术股份有限公司,未经华东师范大学;上海宏路数据技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011362711.5/2.html,转载请声明来源钻瓜专利网。