[发明专利]利用语料库训练稠密词向量的方法及装置有效
申请号: | 201611176862.5 | 申请日: | 2016-12-19 |
公开(公告)号: | CN108205523B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 许中兴 | 申请(专利权)人: | 北京天广汇通科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 姜怡;袁礼君 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 语料库 训练 稠密 向量 方法 装置 | ||
本申请公开一种利用语料库训练稠密词向量的方法及装置。该方法包括:遍历语料库获取语句,进行以下词向量训练:通过移动采样窗口,获取所述语句中的词;通过目标函数算法,获取所述词的词向量;在所述语料库遍历结束之后,判断是否满足预定条件;以及如果满足预定条件,则结束所述词向量训练。通过本申请公开的方法,能够得到更多的语义信息,减少“词汇鸿沟”现象。
技术领域
本发明涉及语言处理领域,具体而言,涉及一种利用语料库训练稠密词向量的方法及装置。
背景技术
要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,词向量就是用来将语言中的词进行数学化的一种方式。
一种最简单的词向量方式是one-hot representation,就是用一个很长的向量来表示一个词。在这种语言处理方法中,对一个词的表示经常采用稀疏0-1向量的方式,将一个词表示成一个仅包含0-1数字的向量,一个词的词向量中,有且仅有1个维度上的值是1,其余的维度都是0。在这种方法中,词向量的维度由词汇表的大小决定,带来的缺点是向量维度非常大,等于词汇表的大小,一般为10万量级;并且,词和词之间的距离都相等,丢失了很多语义信息。例如表示颜色的词之间的词向量距离应该离得很近,表示城市的词应该与表示颜色的词的词向量应该离得很远。但是one-hot representation表示方法中,由于向量间距离相同,无法表达出这些信息。这种词语词之间距离相等的现象也被称为“词汇鸿沟”现象:即为,任意两个词之间都是孤立的。仅仅从这两个词的词向量中看不出两个词是否有关系,哪怕是话筒和麦克这样的同义词也不能幸免于难。此外,one-hotrepresentation表示方法还容易发生维数灾难,尤其是深度学习(Deep Learning)相关的一些应用中。
本发明提出了一种利用语料库训练稠密词向量的方法及装置。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种利用语料库训练稠密词向量的方法及装置,能够表达更多的语义信息,节约词向量计算时耗费的系统资源。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种利用语料库训练稠密词向量的方法,其特征在于,包括:遍历语料库获取语句,进行以下词向量训练:通过移动采样窗口,获取所述语句中的词;通过目标函数算法,获取所述词的词向量。
在本公开的一种示例性实施例中,上述方法还包括:在语料库遍历结束之后,判断是否满足预定条件;以及如果满足预定条件,则结束词向量训练。
在本公开的一种示例性实施例中,通过移动采样窗口,获取语句中的词,包括:通过采样窗口,选取语句中连续的n个词;其中,n为采样窗口的宽度。
在本公开的一种示例性实施例中,通过目标函数算法,获取词的词向量,包括:通过目标函数算法,获取语句中两个词的词向量;判断采样窗口中是否包含语句中最后一个词;以及根据判断结果,进行处理。
在本公开的一种示例性实施例中,根据判断结果,进行处理,包括:如果采样窗口中未包含语句中最后一个词,将采样窗口在语句中向后移动一个词,再次获取语句中的词。
在本公开的一种示例性实施例中,通过目标函数算法,获取语句中两个词的词向量,包括:获取n个词的中心词;以及获取n个词中任一词;其中,n为采样窗口的宽度,n为正整数。
在本公开的一种示例性实施例中,通过目标函数算法,获取语句中两个词的词向量,包括:获取语料库中任意m个词;以及建立目标函数公式;其中,m为正整数。
在本公开的一种示例性实施例中,建立目标函数公式,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天广汇通科技有限公司,未经北京天广汇通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611176862.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:情感标注的方法及其系统
- 下一篇:文本数据处理方法和装置