[发明专利]一种融合文本语法结构和语义信息的文本实体关系自动分类方法在审

专利信息
申请号: 201911345630.1 申请日: 2019-12-24
公开(公告)号: CN111177383A 公开(公告)日: 2020-05-19
发明(设计)人: 陈雪;陈光勇;骆祥峰;黄敬;王鹏 申请(专利权)人: 上海大学;阿里巴巴集团控股有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/211;G06F40/295;G06F40/30;G06N3/02
代理公司: 上海上大专利事务所(普通合伙) 31205 代理人: 陆聪明
地址: 200444*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 文本 语法 结构 语义 信息 实体 关系 自动 分类 方法
【说明书】:

发明公开了一种融合文本语法结构和语义信息的文本实体关系自动分类方法。该方法的具体实施步骤如下:(1)、对文本集预处理得到句子初始向量;(2)、提取句中词语与实体及关系的相关度,更新句子向量;(3)、将(2)的句子向量输入双向门循环单元神经网络,得到融合语义信息的句子向量;(4)、将(2)的句子向量输入图注意力神经网络,得到融合语法结构信息的句子向量;(5)、将(3)的输出和(4)的输出进行拼接,更新句子向量;(6)、将(5)的句子向量输入全连接神经网络层,得到句子的特征向量,经softmax变换输出实体关系分类向量。本方法能够有效缓解实体关系分类中语义特征、语法特征难以表示及人工特征选择误差大的问题。

技术领域

本发明涉及文本挖掘和深度学习领域,更具体的说,涉及一种融合文本语法结构和语义信息的文本实体关系自动分类方法。

背景技术

传统的利用机器学习的实体关系分类方法,如支持向量机,需要构造大量的词汇、句法和语义特征,并且这些特征无法很好的进行跨领域的复用,极大的限制了方法的使用范围。传统利用神经网络进行实体关系分类的方法,如双向循环记忆神经网络和卷积神经网络,仅简单使用地文本中词汇与向量之间的直接映射,忽略了实体及关系本身对于句子中词汇的影响,造成实体及关系的有效信息无法被充分地利用,因而分类准确性不高;一些利用句子语法结构的实体关系分类的神经网络方法,如基于最短依存路径的神经网络方法,忽略句子中其他成分对实体关系本身的影响情况,造成实体之外的词汇信息丢失,无法有效地获取除实体外的环境词对实体关系的正向影响。

发明内容

针对现有技术存在的缺陷,本发明的目的是提供一种融合文本语法结构和语义信息的文本实体关系自动分类方法。利用文本实体特征、关系(谓语动词)特征、句子上下文语义特征及语法结构特征,并向量化将其融合拼接进行文本中实体关系自动分类,有效地缓解实体关系分类中语义特征提取难、语法特征难以表示及人工特征选择误差大的问题。该方法可以应用于构建知识图谱、开发自动问答系统及信息检索等领域。

为了达到上述目的,本发明的构思如下:

利用注意力神经网络提取句中词语与实体及关系的相关度信息,降低相关度小的噪音词对关系分类的影响;利用双向门循环单元神经网络提取文本上下文语义信息;利用图注意力神经网络提取文本语法特征信息。通过文本的词汇相关度特征、上下文语义特征及语法特征互补的方式,完成对文本中实体关系的自动分类。

根据上述的发明思想,本发明采用下述技术方案:

一种融合文本语法结构和语义信息的文本实体关系自动分类方法,具体步骤如下:

(1)获取互联网公开的文本集信息并进行预处理,得到句子的初始向量;

(2)从步骤(1)得到的句子初始向量中,提取句中词语与实体及关系的相关度,更新句子向量;

(3)将步骤(2)得到的句子向量输入到双向门循环单元神经网络,得到融合语义信息的句子向量;

(4)将步骤(2)得到的句子向量输入到图注意力神经网络,得到融合语法结构信息的句子向量;

(5)对每个句子,将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接,更新句子向量;

(6)将步骤(5)得到的句子向量输入到全连接神经网络层,得到句子的特征向量;该特征向量经过softmax变换输出实体关系分类向量,其每一维表示句中实体关系属于对应类别的概率。

所述步骤(1)中获取互联网公开的文本训练集信息并进行预处理,得到句子的初始向量,其过程如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学;阿里巴巴集团控股有限公司,未经上海大学;阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911345630.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top