[发明专利]一种基于循环神经网络与潜变量结构的词语定义生成方法有效
| 申请号: | 201910365929.7 | 申请日: | 2019-04-30 |
| 公开(公告)号: | CN110083710B | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 杜永萍;张海同;王辰成 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62;G06N3/04 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 循环 神经网络 变量 结构 词语 定义 生成 方法 | ||
本发明涉及一种基于循环神经网络与潜变量结构的词语定义生成方法,属于自然语言处理领域。本发明在基于循环神经网络的基础上利用变分自编码器(VAE)对释义进行建模,结合潜变量特征,根据被定义词的上下文信息对词义进行提取来生成词语的释义,具体包括:建立并整理基础语料库;选取被定义词语的近义词集合,扩展基础语料库,形成最终语料库;对被定义词语的词向量进行扩展重构;构建基于循环神经网络与潜变量结构模型;训练基于循环神经网络与潜变量结构模型;将待释义词语及其上下文信息输入训练完成的模型中,实现具体语境中待释义词语的语义释义,解决一词多义问题。
技术领域
本发明涉及一种基于循环神经网络与潜变量结构的词语定义生成方法,属于自然语言处理领域。
背景技术
英语学习型词典是指专为母语是非英语的学习者设计,力图帮助学习者正确理解并运用英语的工具书。目前大多数英语学习型词典的词语定义存在循环释义,用词太难等问题,不利于使用者的理解。
定义生成(Definition Generation)的主要任务是自动的生成词语的自然语言释义,从而缩减人工编纂词典的时间和成本,涉及语言学(Linguistics)、自然语言处理(Natural Language Processing)、人工智能(Artificial Intelligence)等众多领域。
词向量,即分布式的词表示,采用低维稠密的向量来表示词汇。在词相似等任务中词向量能够捕获词汇之间的语义关系。
词相似:通过计算两个词语的词向量的相似度来衡量两个词语的相似性,主要方法包括余弦相似度(Cosine)、欧氏距离(Euclidean)、曼哈顿距离(Manhattan Distance)、皮尔逊相关系数(Pearson Correlation Coefficient)等。
定义生成研究基于词向量表示是否可以生成对应词语的自然语言释义。相比于词相似等任务,它是词向量所捕获的语法和语义信息更直接的表示和验证。
图1为目前的定义生成方法示意图。目前的定义生成方法大多基于循环神经网络语言模型。如图1所示,将被定义词输入到循环神经网络中,神经网络输出一个词语的概率分布和隐藏表示,从概率分布中进行采样得到概率最高的词语作为该时刻的生成词,和隐藏表示一起送到下一个时刻的循环神经网络中,循环往复,直到生成停止标识。
长短期记忆网络(LSTM)是一种特殊结构的循环神经网络,可以学习序列的长期依赖信息。在每一个时刻t上,LSTM接收该时刻的输入x以及t-1刻的隐藏状态ht-1输出该时刻的输出y以及一个新的隐藏状态ht。
门控循环单元(GRU)是LSTM的一种变体,它将LSTM的忘记门和输入门合成了一个单一的更新门。GRU在保持LSTM效果的同时又使得模型的结构更加简单。
现有方法在定义生成过程中仅仅利用被定义词的信息,有一定的局限性,不能充分的结合上下文信息,即该词在语境中的含义,因此不能考虑到一词多义的问题。
发明内容
为了弥补现有方法的不足,本发明在输入时不仅利用被定义词,同时输入该词的上下文信息去进行词语的定义生成。本发明在基于循环神经网络的基础上利用变分自编码器 (VAE)对释义进行建模,结合潜变量特征,根据被定义词的上下文信息对词义进行提取来生成词语的释义,弥补了现有方法不能结合语境的缺点,从而解决了一词多义的问题。
本发明提供一种结合上下文信息与潜变量结构的词语定义生成方法,包括:上下文语义提取器、释义变分自编码器、释义生成解码器。
所述上下文语义提取器用于根据被定义词的上下文信息来提取被定义词词向量在相关语境中的含义。
所述释义变分自编码器对释义进行建模,提取释义的潜变量特征,弥补定义生成时信息不足的问题,同时在生成定义时为模型提供释义的结构信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910365929.7/2.html,转载请声明来源钻瓜专利网。





