[发明专利]基于实时学习的融合型词义嵌入方法有效

专利信息
申请号: 201910839702.1 申请日: 2019-09-06
公开(公告)号: CN110705274B 公开(公告)日: 2023-03-24
发明(设计)人: 桂盛霖;方丹 申请(专利权)人: 电子科技大学
主分类号: G06F40/284 分类号: G06F40/284;G06F16/35
代理公司: 电子科技大学专利中心 51203 代理人: 周刘英
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 实时 学习 融合 词义 嵌入 方法
【说明书】:

发明公开了一种基于实时学习的融合型词义嵌入方法,属于词向量的自动生成技术领域。本发明基于其所设置神经网络语言模型,基于其投影输出得到当前待进行词义嵌入处理的词的词义向量;该神经网络语言模型的网络结构的输入层,用于获取当前词k在预置的词向量矩阵V中的对应向量;投影层,用于对当前词k进行判断,若其为单义词,则做恒等投影,k在预置的词向量矩阵V中的对应向量作为投影层输出;若其为多义词,则通过基于实时学习的词义识别算法获取其对应的词义向量,投影层输出为该获取的词义向量。本发明利用实时学习的方法实现对多义词的词义向量的计算和生成,在保证词义向量计算效率的前提下,提高生成向量的质量。

技术领域

本发明属于词向量的自动生成技术领域,具体涉及基于实时学习的融合型词义嵌入方法。

背景技术

在自然语言处理(NLP)相关任务中,由于机器无法直接理解分析人类语言,通常都需要将自然语言进行建模后再作为输入提供给计算机。词向量(Word Representation)即是将人类语言中的词语转化为抽象表示的产物,目前常用的词向量共有两类:

One-Hot Representation:生成这种类型词向量首先需要对语料中的所有词进行统计,生成词表N及每个词的唯一编号。对于某个词而言,其对应生成的词向量长度为|N|,词向量中词编号对应位置为1,其余位置为0。这种向量表示的问题在于其占用空间大,导致后续计算量高,并且这种词向量无法对词语之间的关系进行刻画。

Distributed Representation:这种词向量的产生克服了One-HotRepresentation的缺点。Distributed Representation将词语表示为稠密的向量。这种向量的生成通常是某种语言模型训练的副产物,通过对语料库的训练,将语料库中的词语映射到词向量空间,向量之间的关系即为词语语义,词法关系的体现。从而词语语义的相似度可以由词向量值的近似程度来表示。

目前对于词向量生成的处理按照词向量对应的语言单位的粒度可以分为:

(1)词嵌入:将自然语言中的词语表示为计算机能够处理的向量数据。

(2)词义嵌入:将自然语言中的词语所具有的具体语义表示为计算机能够处理的向量数据。

词义嵌入是针对词嵌入类模型的一个主要缺陷:无法准确表达多义词词义的问题,逐渐形成的一种对语义更加敏感的词向量生成模型。词义嵌入类模型对于多义词会根据其在语料库中出现的语义情况生成多个词向量以对应其多个语义,采用这种嵌入模型可以对词语进行语义级更精准的描述。目前,词义嵌入类模型主要有两种类型:双阶段型和融合型。双阶段类型指词义识别和词向量生成的过程是串行分离的。融合型模型则是在词向量生成过程中完成了词义识别。

Schutze在1998年最早提出了进行上下文分组识别,采用计算最大期望的方法进行聚类来识别词义再进行词义向量的生成。后续双阶段模型的思路基本类似,通常在词义识别算法或文本建模方面有所不同与优化。2010年,Reisinger和Moone将上下文表示为一元语法的特征向量采用MovFV聚类的方法来完成词义识别。Sense2vec工具采用了词性信息来达到词义分离的效果,缺点是未考虑到部分多义词多个词义的词义可能相同。融合型模型则是利用词义识别和词向量生成都是对文本上下文进行计算的共通性,融合两个过程以减小计算消耗。Neelakantan在Word2vec模型上进行扩展为每个多义词准备固定个数向量在训练过程中选择合适的向量进行更新,缺点在于不同多义词的词义数量往往不是相同的,限制性较大。Yang Liu等人则优化了词向量生成仅利用局部信息的缺陷,提出TWE模型,在过程中加入了主题信息建模信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910839702.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top