[发明专利]基于集群的词向量处理方法、装置以及设备有效
| 申请号: | 201710992297.8 | 申请日: | 2017-10-23 |
| 公开(公告)号: | CN107957989B9 | 公开(公告)日: | 2021-01-12 |
| 发明(设计)人: | 曹绍升;杨新星;周俊;李小龙 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62 |
| 代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
| 地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 集群 向量 处理 方法 装置 以及 设备 | ||
1.一种基于集群的词向量处理方法,所述集群包括多个工作机和多个服务器,所述方法包括:
将训练语料拆分为多个部分语料,以便各工作机分别读取一部分语料,进而使多个工作机分布式地分别根据拆分的部分语料,训练所述部分语料对应的词向量;
其中,各所述工作机分别执行以下操作以便训练对应的词向量:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
服务器根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新;
其中,所述训练语料保持在数据库中,以供集群中的工作机读取部分语料;所述训练语料的原始词向量保存在所述集群的服务器。
2.如权利要求1所述的方法,所述获取从部分语料中提取的词及其上下文词前,所述方法还包括:
各所述工作机分布式地读取得到部分语料;
所述获取从部分语料中提取的词及其上下文词,具体包括:
根据自己所读取得到的语料,建立相应的词对,所述词对包含当前词及其上下词。
3.如权利要求2所述的方法,所述获取所述词及其上下文词的词向量,具体包括:
根据自己建立的各所述词对,提取得到当前词集合和上下文词集合;
从所述服务器获取所述当前词集合和上下文词集合包含的词的词向量。
4.如权利要求2所述的方法,所述根据所述词及其上下文词,训练对应的词向量,具体包括:
根据指定的损失函数、负样例词,以及自己建立的各所述词对,训练对应的词向量。
5.如权利要求4所述的方法,所述根据指定的损失函数、负样例词,以及自己建立的各所述词对,训练对应的词向量,具体包括:
对自己所读取得到的语料进行遍历;
根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算梯度,并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新。
6.如权利要求5所述的方法,所述根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算梯度,并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新,具体包括:
按照以下公式,对遍历的当前词及其上下文词的词向量进行迭代更新:
其中,w表示当前词,c表示w的上下文词,c'表示负样例词,表示w的词向量,表示c的词向量,和表示第t个工作机上第i次更新,Bi,k表示第i个工作机上第k组语料,Γ(w)表示w的上下文词集合,α表示学习率,σ为Sigmoid函数。
7.如权利要求6所述的方法,所述对遍历的当前词及其上下文词的词向量进行迭代更新,具体包括:
所述工作机上的一个或者多个线程以异步计算且不加锁的方式,所述对遍历的当前词及其上下文词的词向量进行迭代更新。
8.如权利要求3所述的方法,所述根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新,具体包括:
所述服务器获取一个或者多个所述工作机对相同词的词向量分别的训练结果;
根据各所述训练结果,以及训练前保存的所述相同词的词向量,进行平均计算,得到向量增量值,并根据所述向量增量值对所述相同词的词向量进行更新。
9.如权利要求8所述的方法,所述根据各所述训练结果,以及训练前保存的所述相同词的词向量,进行平均计算,得到向量增量值,具体包括:
按照以下公式,计算得到向量增量值:
其中,w表示当前词,c表示w的上下文词,表示w的词向量,表示c的词向量,和表示第i个工作机上迭代更新结果,λi(w)表示w在第i个工作机上出现的次数,表示服务器训练前保存的
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710992297.8/1.html,转载请声明来源钻瓜专利网。





