[发明专利]一种词向量生成、数据处理方法和装置在审

申请号：	201710476725.1	申请日：	2017-06-21
公开（公告）号：	CN109101476A	公开（公告）日：	2018-12-28
发明（设计）人：	谢世鹏	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06N3/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	英属开曼群岛大开***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词向量语义全局方法和装置训练过程语义环境文本迭代更新迭代训练局部语义数据处理数据系统学习过程语义变量鲁棒性解析抽取关联学习更新引入创建申请保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种词向量生成方法和装置，所述方法包括：从数据系统抽取文本，解析文本获得多个词，为各个词创建初始词向量，生成表征文本中所有词构成的全文语义环境的全文词向量，按照各个词与全文词向量以及其他词的词向量之间的关联，对词的词向量进行迭代更新，使得通过定义全文词向量引入全局语义环境，而不是扩展原来的词向量学习窗口来使词向量训练过程受到全局语义的影响。用一个词向量代表全局语义只需在迭代训练过程中多更新一个全局语义变量，就可以在词向量训练过程中，保证最终学习得到的词向量既包含全局语义又包含上下文的局部语义，从而提高了词向量的准确性和鲁棒性，克服了从前词向量学习过程缺失全局语义的问题。

技术领域

本申请涉及自然语言处理技术领域，具体涉及词向量生成方法和装置、特征文本的识别方法和装置、交易对象的推送方法和装置、数据处理方法和装置。

背景技术

基于神经网络的深度学习在自然语言处理上已经取得了一些效果显著的成果。深度学习的神经网络通过多层网络结构，利用权重矩阵表示各层神经元之间的连接权重，配合选取的激励函数，能够模拟大脑神经网络学习语句中的语义信息。

在自然语言处理中为了让计算机可以学习语义信息，将词语表示为一个连续的词向量，并且语义接近的词语对应的词向量在空间上也是接近的。深度学习的神经网络结构能够模拟大脑的神经元，通过构建语言模型学习词向量。

申请人经研究发现，普通的神经网络结构一般选取一定长度的词语窗口，输入层级神经网络，判断是否属于正常的自然语言语句，再通过反向传播算法更新词向量。而选取的词语窗口只包含了语句局部的语义信息，而忽略了整个语句的全局语义信息，最终学习得到的词向量只包含了语句的局部信息，无法完全获得语句的语义信息。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的词向量生成方法和相应的词向量生成装置、特征文本的识别方法和相应的特征文本的识别装置、交易对象的推送方法和对应的交易对象的推送装置、数据处理方法和对应的数据处理装置。

依据本申请的一个方面，提供了一种词向量生成方法，包括：

从数据系统抽取文本，解析所述文本获得多个词；

为各个词创建初始词向量；

生成表征所述文本中所有词构成的全文语义环境的全文词向量；