[发明专利]一种词向量生成、数据处理方法和装置在审
申请号: | 201710476725.1 | 申请日: | 2017-06-21 |
公开(公告)号: | CN109101476A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 谢世鹏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 语义 全局 方法和装置 训练过程 语义环境 文本 迭代更新 迭代训练 局部语义 数据处理 数据系统 学习过程 语义变量 鲁棒性 解析 抽取 关联 学习 更新 引入 创建 申请 保证 | ||
本申请实施例提供了一种词向量生成方法和装置,所述方法包括:从数据系统抽取文本,解析文本获得多个词,为各个词创建初始词向量,生成表征文本中所有词构成的全文语义环境的全文词向量,按照各个词与全文词向量以及其他词的词向量之间的关联,对词的词向量进行迭代更新,使得通过定义全文词向量引入全局语义环境,而不是扩展原来的词向量学习窗口来使词向量训练过程受到全局语义的影响。用一个词向量代表全局语义只需在迭代训练过程中多更新一个全局语义变量,就可以在词向量训练过程中,保证最终学习得到的词向量既包含全局语义又包含上下文的局部语义,从而提高了词向量的准确性和鲁棒性,克服了从前词向量学习过程缺失全局语义的问题。
技术领域
本申请涉及自然语言处理技术领域,具体涉及词向量生成方法和装置、特征文本的识别方法和装置、交易对象的推送方法和装置、数据处理方法和装置。
背景技术
基于神经网络的深度学习在自然语言处理上已经取得了一些效果显著的成果。深度学习的神经网络通过多层网络结构,利用权重矩阵表示各层神经元之间的连接权重,配合选取的激励函数,能够模拟大脑神经网络学习语句中的语义信息。
在自然语言处理中为了让计算机可以学习语义信息,将词语表示为一个连续的词向量,并且语义接近的词语对应的词向量在空间上也是接近的。深度学习的神经网络结构能够模拟大脑的神经元,通过构建语言模型学习词向量。
申请人经研究发现,普通的神经网络结构一般选取一定长度的词语窗口,输入层级神经网络,判断是否属于正常的自然语言语句,再通过反向传播算法更新词向量。而选取的词语窗口只包含了语句局部的语义信息,而忽略了整个语句的全局语义信息,最终学习得到的词向量只包含了语句的局部信息,无法完全获得语句的语义信息。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的词向量生成方法和相应的词向量生成装置、特征文本的识别方法和相应的特征文本的识别装置、交易对象的推送方法和对应的交易对象的推送装置、数据处理方法和对应的数据处理装置。
依据本申请的一个方面,提供了一种词向量生成方法,包括:
从数据系统抽取文本,解析所述文本获得多个词;
为各个词创建初始词向量;
生成表征所述文本中所有词构成的全文语义环境的全文词向量;
按照各个词的词向量与所述全文词向量以及其他词的词向量之间的关联,对所述词的词向量进行迭代更新。
可选地,所述数据系统包括交易系统,所述从数据系统抽取文本包括:
调用数据抓取工具从交易系统抓取网络对象文本,所述网络对象文本包括针对网络对象的描述文本和评价文本。
可选地,在所述解析所述文本获得多个词之前,所述方法还包括:
去除所述文本中的预设符号和停顿词。
可选地,所述方法还包括:
确定所述文本所属语言种类;
查找针对所确定的语言种类设置的停顿词。
可选地,在所述解析所述文本获得多个词之前,所述方法还包括:
按照所述文本所属语言种类选取对应的文本分割工具。
可选地,所述生成表征所述文本中所有词构成的语义环境的全文词向量包括:
统计所有词的初始词向量的加和,以加和结果作为表征所述文本中所有词构成的语义环境的全文词向量。
可选地,所述按照各个词的词向量与所述全文词向量以及其他词的词向量之间的关联,对所述词的词向量进行迭代更新包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710476725.1/2.html,转载请声明来源钻瓜专利网。