[发明专利]基于集群的词向量处理方法、装置以及设备有效
申请号: | 201710992297.8 | 申请日: | 2017-10-23 |
公开(公告)号: | CN107957989B9 | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 曹绍升;杨新星;周俊;李小龙 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集群 向量 处理 方法 装置 以及 设备 | ||
本说明书实施例公开了基于集群的词向量处理方法、装置以及设备,方案包括:集群包括服务器集群和工作机集群,工作机集群中的各工作机并行地分别读取部分语料,并从读取的语料中提取词及其上下文词,从服务器集群中的服务器获取对应的词向量并进行训练,由服务器根据一个或者多个工作机对相同词的词向量分别的训练结果,对训练前保存的相同词的词向量进行更新。
技术领域
本说明书涉及计算机软件技术领域,尤其涉及基于集群的词向量处理方法、装置以及设备。
背景技术
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。
在现有技术中,常见的用于生成词向量的算法比如包括谷歌公司的单词向量算法、微软公司的深度神经网络算法等,往往在单机上运行。
基于现有技术,需要高效的大规模词向量训练方案。
发明内容
本说明书实施例提供基于集群的词向量处理方法、装置以及设备,用以解决如下技术问题:需要高效的大规模词向量训练方案。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于集群的词向量处理方法,所述集群包括多个工作机,所述方法包括:
各所述工作机分别执行:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新。
本说明书实施例提供的一种基于集群的词向量处理装置,所述集群包括多个工作机,所述装置位于所述集群,包括整合更新模块、位于所述工作机的训练模块;
各所述工作机的训练模块分别执行:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
所述整合更新模块,根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新。
本说明书实施例提供的一种基于集群的词向量处理设备,所述设备属于所述集群,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
根据一个或者多个所述处理器对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:集群的分布式并行处理能力使得该方案能够适用于大规模词向量训练且效率较高。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710992297.8/2.html,转载请声明来源钻瓜专利网。