[发明专利]基于集群的词向量处理方法、装置以及设备在审
申请号: | 201711123278.8 | 申请日: | 2017-11-14 |
公开(公告)号: | CN108170663A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 曹绍升;杨新星;周俊 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 词向量 工作机 读取 服务器集群 语料 服务器 服务器获取 异步更新 更新 | ||
本说明书实施例公开了基于集群的词向量处理方法、装置以及设备,方案包括:集群包括服务器集群和工作机集群;工作机集群中的各工作机分别读取部分语料,并从读取的语料中提取词及其上下文词,从服务器集群中的服务器获取对应的词向量并计算梯度,将梯度异步更新至服务器;服务器根据梯度,对词及其上下文词的词向量进行更新。
技术领域
本说明书涉及计算机软件技术领域,尤其涉及基于集群的词向量处理方法、装置以及设备。
背景技术
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。
在现有技术中,常见的用于生成词向量的算法比如包括谷歌公司的单词向量算法、微软公司的深度神经网络算法等,往往在单机上运行。
基于现有技术,需要高效的大规模词向量训练方案。
发明内容
本说明书实施例提供基于集群的词向量处理方法、装置以及设备,用以解决如下技术问题:需要高效的大规模词向量训练方案。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于集群的词向量处理方法,所述集群包括多个工作机和服务器,所述方法包括:
各所述工作机分别执行:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,以及对应的词向量,计算梯度;
将所述梯度异步更新至所述服务器;
所述服务器根据所述梯度,对所述词及其上下文词的词向量进行更新。
本说明书实施例提供的一种基于集群的词向量处理装置,所述集群包括多个工作机和服务器,所述装置位于所述集群,包括位于所述工作机的第一获取模块、第二获取模块、梯度计算模块、异步更新模块、位于所述服务器的词向量更新模块;
各工作机通过相应的模块分别执行:
所述第一获取模块获取从部分语料中提取的词及其上下文词;
所述第二获取模块获取所述词及其上下文词的词向量;
所述梯度计算模块根据所述词及其上下文词,以及对应的词向量,计算梯度;
所述异步更新模块将所述梯度异步更新至所述服务器;
所述服务器的所述词向量更新模块根据所述梯度,对所述词及其上下文词的词向量进行更新。
本说明书实施例提供的一种基于集群的词向量处理设备,所述设备属于所述集群,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,以及对应的词向量,计算梯度;
将所述梯度异步更新;
根据异步更新的梯度,对所述词及其上下文词的词向量进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711123278.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:缩简词的消歧方法和消歧设备
- 下一篇:基于重点关键词的关键词拓展方法和装置