[发明专利]一种用于含噪稀疏文本的语义关系抽取方法有效
申请号: | 201910806205.1 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110674642B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 赵翔;庞宁;谭真;郭爱博;殷风景;唐九阳;葛斌;肖卫东 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/211;G06F18/25;G06N3/0464;G06N3/084 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;张燕华 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 稀疏 文本 语义 关系 抽取 方法 | ||
本发明公开了一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:建立训练样本集;构建语义关系抽取模型;训练语义关系抽取模型;建立待抽取语义的数据集;利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。本发明方法采用不同的卷积神经网络分别提取分词序列和对应依存路径的特征,避免了错误积累,比传统基于特征和核的关系抽取方法,有明显的效果提升;充分利用关系实例的两种信息表示,通过特征融合层将二者有效结合,为准确预测目标实体对的语义关系提供更全面的信息;加入多实例学习方法,用于在样本稀疏条件下的噪声抑制,与注意力机制相比,该机制不存在欠拟合问题,更适合稀疏样本下的语义关系抽取问题。
技术领域
本发明属于中文文本语义关系抽取领域,具体涉及一种在含有噪声的稀疏中文文本中进行实体语义关系抽取的方法。
背景技术
近年来,知识图谱在一系列知识驱动的应用中发挥极其重要的作用,例如,机器翻译、推荐系统和问答系统等,而关系抽取技术是知识图谱自动构建的关键一环,具有重要的现实意义。关系抽取是通过理解非结构化文本所包含的语义信息,获得标注实体对的语义关系的过程。当前,主流的关系抽取方法是基于有监督和远程监督的关系抽取方法。
传统的有监督关系抽取方法受自然语言处理工具中错误累积的影响,为了避免这一问题,神经网络开始广泛用于文本的嵌入表示,自动提取文本语义特征。监督方法需要明确的人工注释文本,标注过程耗时耗力。为了解决这一问题,提出了一种替代范式,即远程监督。该范式利用现有知识图谱Freebase提供监督,启发式地将文本与Freebase对齐,来生成大量弱注释数据。很明显,这种启发式对齐方法会带来噪声数据,这会严重影响关系抽取器的性能。
为了解决错误的注释问题,多实例学习方法被提出可以用来缓解远程监督下的错误标注问题,另外,选择性注意机制具有可训练的参数,通过学习,拟合在噪声上的概率分布,并动态地去削弱噪声实例影响。然而,在数据稀疏情况下,传统的注意力机制和多实例学习并不能很好地拟合在噪声数据上的概率分布,使得从含噪的稀疏文本中对语义关系进行抽取的效果并不理想。另外,现有的关系抽取方法在英文语料上发展较为先进,而在中文语料的关系抽取研究相对落后。
发明内容
有鉴于此,本发明的目的在于提出一种用于含噪稀疏文本的语义关系抽取方法,用于从非结构的语料中抽取结构化的知识,特别是从含噪稀疏的中文文本中进行语义关系抽取。
基于上述目的,本发明提供的一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:
步骤1,建立中文文本训练样本集;
步骤2,构建语义关系抽取模型;
步骤3,训练语义关系抽取模型;
步骤4,建立待抽取语义的数据集;
步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。
所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;
所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。
进一步地,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910806205.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于GPT-2模型的中文电子病历实体识别方法
- 下一篇:一种免手操作的翻译机