[发明专利]一种词向量生成、数据处理方法和装置在审
申请号: | 201710476725.1 | 申请日: | 2017-06-21 |
公开(公告)号: | CN109101476A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 谢世鹏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 语义 全局 方法和装置 训练过程 语义环境 文本 迭代更新 迭代训练 局部语义 数据处理 数据系统 学习过程 语义变量 鲁棒性 解析 抽取 关联 学习 更新 引入 创建 申请 保证 | ||
1.一种词向量生成方法,其特征在于,包括:
从数据系统抽取文本,解析所述文本获得多个词;
为各个词创建初始词向量;
生成表征所述文本中所有词构成的全文语义环境的全文词向量;
按照各个词的词向量与所述全文词向量以及其他词的词向量之间的关联,对所述词的词向量进行迭代更新。
2.根据权利要求1所述的方法,其特征在于,所述数据系统包括交易系统,所述从数据系统抽取文本包括:
调用数据抓取工具从交易系统抓取网络对象文本,所述网络对象文本包括针对网络对象的描述文本和评价文本。
3.根据权利要求1所述的方法,其特征在于,在所述解析所述文本获得多个词之前,所述方法还包括:
去除所述文本中的预设符号和停顿词。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述文本所属语言种类;
查找针对所确定的语言种类设置的停顿词。
5.根据权利要求1所述的方法,其特征在于,在所述解析所述文本获得多个词之前,所述方法还包括:
按照所述文本所属语言种类选取对应的文本分割工具。
6.根据权利要求1所述的方法,其特征在于,所述生成表征所述文本中所有词构成的语义环境的全文词向量包括:
统计所有词的初始词向量的加和,以加和结果作为表征所述文本中所有词构成的语义环境的全文词向量。
7.根据权利要求1所述的方法,其特征在于,所述按照各个词的词向量与所述全文词向量以及其他词的词向量之间的关联,对所述词的词向量进行迭代更新包括:
针对各个词,根据所述全文词向量和其他词的词向量,以及所述词的词向量与所述全文词向量以及其他词的词向量之间的关联,推算所述词的词向量,并在多轮迭代更新后,得到各个词的词向量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述全文词向量和其他词的词向量,以及所述词的词向量与所述全文词向量以及其他词的词向量之间的关联,推算所述词的词向量包括:
根据所述全文词向量和其他词的词向量,以及所述词的词向量与所述全文词向量和其他词的词向量之间的关联,推算所述词在各个分类维度下的分类结果,以所有分类结果的标识的集合为所述词的词向量。
9.根据权利要求1所述的方法,其特征在于,所述按照各个词的词向量与所述全文词向量以及其他词的词向量之间的关联,对所述词的词向量进行迭代更新包括:
针对各个词,根据所述词的词向量,以及所述词的词向量与所述全文词向量以及其他词的词向量之间的关联,推算全文词向量和其他词的词向量,并在多轮迭代更新后,得到各个词的词向量。
10.根据权利要求9所述的方法,其特征在于,所述根据所述词的词向量,以及所述词的词向量与所述全文词向量以及其他词的词向量之间的关联,推算全文词向量和其他词的词向量包括:
根据所述全文词向量和其他词的词向量,以及所述词的词向量与所述全文词向量和其他词的词向量之间的关联,推算全文信息或其他词在各个分类维度下的分类结果,以所有分类结果的标识的集合为所述全文词向量或其他词的词向量。
11.根据权利要求1所述的方法,其特征在于,所述按照各个词的词向量与所述全文词向量以及其他词的词向量之间的关联,对所述词的词向量进行迭代更新包括:
在每个词向量更新后,统计所有词的词向量的加和,以加和结果更新所述全文词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710476725.1/1.html,转载请声明来源钻瓜专利网。