[发明专利]一种融合文本语法结构和语义信息的文本实体关系自动分类方法在审
申请号: | 201911345630.1 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111177383A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 陈雪;陈光勇;骆祥峰;黄敬;王鹏 | 申请(专利权)人: | 上海大学;阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/295;G06F40/30;G06N3/02 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 文本 语法 结构 语义 信息 实体 关系 自动 分类 方法 | ||
1.一种融合文本语法结构和语义信息的文本实体关系自动分类方法,其特征在于,具体步骤如下:
(1)获取互联网公开的文本集信息并进行预处理,得到句子的初始向量;
(2)从步骤(1)得到的句子初始向量中,提取句中词语与实体及关系的相关度,更新句子向量;
(3)将步骤(2)得到的句子向量输入到双向门循环单元神经网络,得到融合语义信息的句子向量;
(4)将步骤(2)得到的句子向量输入到图注意力神经网络,得到融合语法结构信息的句子向量;
(5)对每个句子,将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接,更新句子向量;
(6)将步骤(5)得到的句子向量输入到全连接神经网络层,得到句子的特征向量;该特征向量经过softmax变换输出实体关系分类向量,其每一维表示句中实体关系属于对应类别的概率。
2.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法,其特征在于,所述步骤(1)中获取互联网公开的文本训练集信息并进行预处理,得到句子的初始向量,其过程如下:
对词语缩写形式还原;使用StandfordCoreNLP工具对数据文本进行切分词,词性标注、去除文本中的副词,形容词;构建句子词汇间的邻接矩阵和依存语法分析树;利用glove词向量映射出句子中每个词语的向量表示,得到句子的初始向量S0={w1,w2,…,wn},其中n为句子的最大长度,wi为句中每个词的向量,维度为300维。
3.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法,其特征在于,所述步骤(2)中从步骤(1)得到的句子初始向量中提取句中词语与实体及关系的相关度,其过程如下:
(2-1)依照步骤(1)输出的句子向量分S0={w1,w2,…,wn},输入句中词语与两个实体的所构建的相对位置矩阵E1pos和E2pos,E1pos为句中词语与实体1的相对位置,E1pos={pos1,pos2,…,posn},实体1在句中的位置e1,则posi=i-e1,把posi重新映射到预设维度为20的张量上,其中张量采用均匀分布随机初始化生成;同理计算实体2相对位置矩阵E2pos,将S0、E1pos和E2pos进行拼接,得到更新后的S0,其维度为340;
(2-2)从(2-1)更新后的S0中抽取出代表实体1、实体2和关系的向量化表示分别为we1、we2与wr;计算Ae1=f(S0,we1),其中f为矩阵的内积运算,Ae1为句子中每个词语与实体1所计算出的相关度,Ae1={a1,a2,…,an},ai为句中第i词语与实体1的相关度表示;同理构造Ae2和Ar,三者的维度均为句子的长度n;对Ae1、Ae2和Ar三个向量的各个分量分别使用如下softmax进行归一化处理后得到三个新的向量A1,A2和A3:
把A1,A2和A3三个向量各个对应分量求和取平均得到句子的词语与实体及关系的相关度句子向量更新计算公式为S0=A×S0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学;阿里巴巴集团控股有限公司,未经上海大学;阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345630.1/1.html,转载请声明来源钻瓜专利网。