[发明专利]跨语言词向量生成方法、装置、电子设备及存储介质有效

申请号：	202110452488.1	申请日：	2021-04-25
公开（公告）号：	CN113157865B	公开（公告）日：	2023-06-23
发明（设计）人：	郭维;阮晓雯;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289;G06F40/30;G06N3/02;G06N3/08
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言向量生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术，揭露了一种跨语言词向量生成方法，包括：获取平行语料对，对所述平行语料对进行分词处理，得到分词语料对，利用分词语料对构建平行语料网络，对所述平行语料网络中的语料进行随机游走，得到混合语料序列，汇总平行语料对及混合语料序列，得到语料训练集，利用所述语料训练集训练预构建的词向量模型，得到跨语言词向量生成模型，获取跨语言语料，利用所述跨语言词向量生成模型生成所述跨语言语料的跨语言词向量。此外，本发明还涉及区块链技术，所述跨语言词向量可存储在区块链的节点中。本发明还提出一种跨语言词向量生成装置、电子设备以及计算机可读存储介质。本发明可以解决跨语言词向量生成效率较低的问题。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种跨语言词向量生成方法、装置、电子设备及计算机可读存储介质。

背景技术

词向量(Word embedding)是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，词向量指的是来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。当用作底层输入表示时，词向量嵌入已经被证明可以提高NLP任务的性能，例如语法分析和情感分析。目前主流的词向量技术如word2vec大多为基于单一语种的单语言词向量生成技术。然而，随着全球化的发展，许多企业的应用场景进一步拓展到多语言环境下，对跨语言自然语言处理的需求进一步增长，首当其中的即为作为自然语言处理任务的底层输入表示，跨语言词向量。

传统的跨语言词向量生成方式主要有基于统计特征型及基于空间映射型。基于统计特征型的跨语言词向量生成方法大多从语法语义的统计特征入手构建向量或某种指标进行衡量，精度不高；基于空间映射型的跨语言词向量生成方法指的是寻找一种映射方法能够较好地将源语言空间中的向量映射到目标语言的空间当中，关键问题在于该种映射方法的表达能力可能有限，并且随着映射方法表达能力的提升，训练的时间与空间要求都会变大，导致占用大量计算资源，跨语言词向量生成的扩展性及效率较低。

发明内容

本发明提供一种跨语言词向量生成方法、装置、电子设备及存储介质，其主要目的在于解决跨语言词向量生成效率较低的问题。

为实现上述目的，本发明提供的一种跨语言词向量生成方法，包括：

获取平行语料对，对所述平行语料对进行分词处理，得到分词语料对；

利用所述分词语料对构建平行语料网络；

对所述平行语料网络中的语料进行随机游走，得到混合语料序列；

汇总所述平行语料对及所述混合语料序列，得到语料训练集，利用所述语料训练集训练预构建的词向量模型，得到跨语言词向量生成模型；

获取跨语言语料，利用所述跨语言词向量生成模型生成所述跨语言语料的跨语言词向量。

可选地，所述对所述平行语料对进行分词处理，得到分词语料对，包括：

对所述平行语料对中的语料进行分词处理，得到分词结果；

根据预设的停用词去除规则从所述分词结果中筛选出一个或多个关键词，汇总所有筛选出来的关键词，得到所述分词语料对。

可选地，所述利用所述分词语料对构建平行语料网络，包括：