[发明专利]一种基于循环神经网络与潜变量结构的词语定义生成方法有效
| 申请号: | 201910365929.7 | 申请日: | 2019-04-30 |
| 公开(公告)号: | CN110083710B | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 杜永萍;张海同;王辰成 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62;G06N3/04 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于循环神经网络与潜变量结构的词语定义生成方法,属于自然语言处理领域。本发明在基于循环神经网络的基础上利用变分自编码器(VAE)对释义进行建模,结合潜变量特征,根据被定义词的上下文信息对词义进行提取来生成词语的释义,具体包括:建立并整理基础语料库;选取被定义词语的近义词集合,扩展基础语料库,形成最终语料库;对被定义词语的词向量进行扩展重构;构建基于循环神经网络与潜变量结构模型;训练基于循环神经网络与潜变量结构模型;将待释义词语及其上下文信息输入训练完成的模型中,实现具体语境中待释义词语的语义释义,解决一词多义问题。 | ||
| 搜索关键词: | 一种 基于 循环 神经网络 变量 结构 词语 定义 生成 方法 | ||
【主权项】:
1.一种基于循环神经网络与潜变量结构的词语定义生成方法,其特征在于包括以下步骤:(1)建立并整理基础语料库;所述的基础语料库的内容包括被定义词、词性、领域、释义、上下文信息;所述的基础语料库采用词典的词语释义语料集合;所述的整理包括两部分,即对收集到的基本语料进行清洗,去除停用词和功能词,并按照一定的比例划分训练集、验证集,以及整理基础语料中被定义词、释义和上下文信息中出现的所有词作为基础语料库词表;(2)选取被定义词语的近义词集合,扩展基础语料库,形成最终语料库;计算被定义词语与基础语料库词表中每一个词的相似度得分,选择分数最高的前n个词作为被定义词语的近义词集合;基础语料库+被定义词近义词集合构成最终语料库;(3)对被定义词语的词向量进行展重构,具体包括:对被定义词词向量V*和最终语料库词表中出现词语的词向量进行初始化;在被定义词的字符序列的开始和结束位置添加标识符,输入到双向LSTM中,分别从正向和反向对被定义词进行建模,将双向LSTM最后一个时刻正向和反向的隐藏状态进行拼接,得到被定义词的字符级信息VCH;对所述被定义词近义词集合的词向量进行初始化,将n个近义词的词向量进行拼接,得到被定义词的近义词信息VSY;将初始化的被定义词词向量V*与所述字符级信息VCH和所述近义词信息VSY进行拼接,得到被定义词扩展重构后的词向量,如公式1所示:V*=[V*,VCH,VSY] (1)(4)构建基于循环神经网络与潜变量结构模型模型包括上下文语义提取器模块、释义变分自编码器模块、释义生成解码器模块三部分,所述上下文语义提取器用于根据被定义词的上下文信息来提取被定义词词向量在相关语境中的含义,具体为:将被定义词的上下文信息输入到双向GRU中,将双向GRU最后一个时刻正向和反向的隐藏状态进行拼接,得到上下文的嵌入表示Vs;对上下文嵌入表示Vs进行线性变换操作来对齐空间,得到对齐后上下文表示TVs;按照公式2计算对齐后的上下文表示TVs与重构的被定义词词向量V*之间的内积d,具体计算公式如下:d=TVs⊙V* (2)其中T表示线性变换矩阵,⊙表示计算内积操作;利用Softmax进行归一化,按照公式3计算得到被定义词词向量基于上下文信息的二进制掩码mask,具体计算公式如下:mask=Softmax(d) (3)将被定义词词向量基于上下文信息的二进制掩码mask与重构的被定义词词向量V*进行拼接,进行线性变换映射到相同的向量空间中,并使用Tanh进行激活,得到语义向量m,具体计算公式如下:m=tanh(Wc[mask:V*]+b) (4)其中Wc表示线性变换矩阵,b为偏置项,tanh为非线性激活函数;本模块的输出包括:被定义词和上下文在向量空间中对齐后的上下文表示TVs和语义向量m;所述释义变分自编码器对释义进行建模,提取释义的潜变量特征,弥补定义生成时信息不足的问题,同时在生成定义时提供释义的结构信息,具体如下:将被定义词的释义输入到GRU中,取GRU最后一个时刻的隐藏状态作为释义的编码特征,对编码特征分别进行两个线性变换,映射到一个均值为0,标准差为1的潜变量空间Z中,通过Z重构被定义词的释义,使得Z拟合被定义词释义的特征分布;随机生成两个向量,一个表示均值,一个表示标准差,用标准正态分布乘上标准差再加上均值得到被定义词释义的潜变量特征z;本模块的输出为被定义词释义的潜变量特征z;所述的释义生成解码器模块,基于GRU,用于联合重构后的被定义词词向量以及上下文信息和潜变量特征进行被定义词词语定义的生成,具体如下:释义生成解码器的输入为被定义词的释义,释义生成解码器初始的隐藏状态是由重构的被定义词词向量、对齐的上下文表示、潜变量特征拼接,然后进行线性映射得到的,具体表示如下:V=[V*;TVs;z] (5)将拼接之后的所述被定义词的生成向量V经过线性变换映射到所述释义生成解码器初始的隐藏状态h0;在第一个时刻使用一个特殊的开始标识BOS与语义向量m进行拼接作为第一个时刻的释义生成解码器的输入;之后在释义生成解码器每一个解码的时刻t上将t时刻词语的词向量Vt与语义向量m进行拼接,得到该时刻释义生成解码器的输入xt,如公式6所示:xt=[Vt;m] (6)接收t时刻的输入xt以及t‑1时刻的隐藏表示ht‑1,计算得到新的隐藏表示ht;将释义生成解码器t时刻的隐藏表示ht经过线性变换按映射到一个词表大小的概率分布Ot中,通过Softmax计算得到最终的概率分布,选择分布概率最大的作为t时刻的输出yt,如以下所示:yt=argmax pt,i (7)其中,
为Softmax操作;(5)训练基于循环神经网络与潜变量结构模型,具体为:首先使用WikiText‑103数据对释义生成解码器部分进行单独的预训练,预训练时设置生成向量为0向量,当连续n≥5个轮次epoch在验证集上的困惑度没有下降时,预训练完毕,保存释义生成解码器模块的参数;加载预训练之后释义生成解码器模块的参数,使用训练集对整体基于循环神经网络与潜变量结构模型进行训练优化,当连续n≥5个轮次epoch在验证集上的困惑度没有下降时,训练优化结束;(6)将待释义词语及其上下文信息输入训练完成的模型中,实现具体语境中待释义词语的语义释义,解决一词多义问题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910365929.7/,转载请声明来源钻瓜专利网。





