[发明专利]一种词向量处理方法、装置及设备在审

申请号：	202111185902.3	申请日：	2021-10-12
公开（公告）号：	CN115964502A	公开（公告）日：	2023-04-14
发明（设计）人：	李小涛;游树娟	申请（专利权）人：	中国移动通信有限公司研究院;中国移动通信集团有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/33
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	刘念
地址：	100053 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种向量处理方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种词向量处理方法、装置及设备，涉及通信技术领域。该方法包括：确定目标词语；将所述目标词语作为检索对象，通过搜索引擎进行检索，得到检索结果；根据所述检索结果，确定所述目标词语的关联词语；根据所述关联词语的词向量，确定所述目标词语的目标词向量。本发明的方案，解决了词语不被语料库包含，无法确定其向量信息的问题。

技术领域

本发明涉及通信技术领域，特别是指一种词向量处理方法、装置及设备。

背景技术

词向量(word embedding)，是目前表示词语特征的最常用方式。词向量利用机器学习技术将语料库中的每个词语表示为固定长度的实值向量，从而得到词语的特征表示。目前，词向量已经在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域广泛应用。通过词向量算法训练词语的向量表示时，以一个词语在语料库中所有出现位置的上下文词语集合作为神经网络的输入，经过不断迭代得到中心词的向量化表达。

然而，现有的词向量的训练需要基于预先设定的语料库(如wiki百科语料库、sogou语料库等)，如果一个词语不被语料库包含，在训练后的词向量模型中将不包含该词语的向量信息。

发明内容

本发明的目的是提供一种词向量处理方法、装置及设备，以解决词语不被语料库包含，无法确定其向量信息的问题。

为达到上述目的，本发明的实施例提供一种词向量处理方法，包括：

确定目标词语；

将所述目标词语作为检索对象，通过搜索引擎进行检索，得到检索结果；

根据所述检索结果，确定所述目标词语的关联词语；

根据所述关联词语的词向量，确定所述目标词语的目标词向量。

可选的，所述确定目标词，包括：

将目标文本进行分词，得到一个或多个词语；

基于基础词向量模型，对所述一个或多个词语的词向量进行查询；

在查询结果表明所述基础词向量模型不包括当前词语的词向量的情况下，将所述当前词语作为目标词语。