[发明专利]一种基于位置的LSTM和CNN联合模型进行关系分类的方法有效

申请号：	201711058847.5	申请日：	2017-11-01
公开（公告）号：	CN107832400B	公开（公告）日：	2019-04-16
发明（设计）人：	李玉军;王玥	申请（专利权）人：	山东大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27;G06N3/04
代理公司：	济南金迪知识产权代理有限公司 37219	代理人：	杨树云
地址：	250199 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于位置的LSTM和CNN联合模型进行关系分类的方法，包括：(1)数据预处理；(2)训练词向量；(3)抽取位置向量；获取训练集中的每一个词的位置向量特征，及其高维位置特征向量，将的每一个词的词向量与高维位置特征向量级联，得到联合特征；(4)针对具体任务建模；利用双向LSTM编码实体的上下文信息和语义信息；输出标记实体对应位置的向量，将输出输入至CNN，输出两个实体名词及其上下文信息、关系词信息，输入至分类器中进行分类；(5)采用损失函数训练模型。本发明不需要人工抽取任何特征，联合模型也不需要借助另外的自然语言处理工具对数据做预处理，算法简单明了，效果达到了目前最好。
搜索关键词：	一种基于位置 lstm cnn 联合模型进行关系分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，包括：(1)数据预处理；先采用one‑hot形式来表示数据集中的实体词，再根据数据集中的文本类别对数据进行类别标定；将数据集分为训练集和测试集；(2)训练词向量；将文本数据转换成数学数据，即获取训练集中的每一个词相应的词向量；(3)抽取位置向量；获取训练集中的每一个词的位置向量特征，位置向量特征由句子中的每个词到实体词的相对距离组成，根据步骤(1)得到的每个实体词在句子中的位置，以实体词位置为原点，得到句子中的每个词相对实体词的位置，每个词对两个实体的相对位置组成该词的位置向量特征；并获取每个位置向量特征的高维位置特征向量，将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联，得到每个词的联合特征；(4)针对具体任务建模；利用双向LSTM编码实体词的上下文信息和语义信息；双向LSTM编码后，隐藏层只输出标记实体词对应位置的向量，标记实体词对应位置的向量是指一个句子中给出的两个实体词对应的双向LSTM神经元的隐藏层的输出；将双向LSTM编码后的输出输入至CNN，输出两个实体词及其上下文信息、关系词信息，上下文信息是指当前词前面的词和后面的词；关系词信息是指两个实体词之间的词；将两个实体词及其上下文信息、关系词信息输入至分类器中进行分类；(5)采用损失函数训练模型，分类器得到的样本的概率分布中最大的概率值s′_c的计算公式如式(10)所示，损失函数的计算公式如式(11)所示：s′_c＝max(W_sr_x+b_s) (10)式(11)中，‑∑_xp_xlogq_x是指交叉熵函数，x是要判断的样本，p_x是样本类别的标准分布，q_x是样本类别的预测分布；∑_xmax[0,m‑λ·σ(s_c)+λ·σ(s′_c)]是指变种max‑margin函数，用于弥补交叉熵函数的不足，m和λ是人为选择的超参数，σ是sigmoid函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711058847.5/，转载请声明来源钻瓜专利网。

上一篇：数独题库模板生成系统及方法
下一篇：数据库数据访问方法、系统、装置及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于位置的LSTM和CNN联合模型进行关系分类的方法有效

专利文献下载