[发明专利]支持极性区分和多义的词向量生成方法及装置在审
| 申请号: | 201810557309.9 | 申请日: | 2018-06-01 |
| 公开(公告)号: | CN108829669A | 公开(公告)日: | 2018-11-16 |
| 发明(设计)人: | 杨凯程;李健铨;蒋宏飞 | 申请(专利权)人: | 北京玄一科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 100012 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词向量 向量 义元 多义 语义 运算 资源文件 目标词 权重 维度 动态生成 关联语义 加权运算 匹配结果 业务场景 语义信息 求和 构建 加权 申请 匹配 | ||
1.一种支持极性区分和多义的词向量生成方法,其特征在于,包括:
获取当前业务场景下的词向量模型和资源文件,所述资源文件包括当前业务场景下多个语义对应的义元;
根据所述词向量模型确定目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;
根据所述语义信息以及设定的目标词计算值确定运算权重;
根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量。
2.根据权利要求1所述的词向量生成方法,其特征在于,根据所述语义信息以及设定的目标词计算值确定运算权重,包括:
根据所述语义信息,统计当前目标词对应的所有语义下,义元以及每个义元出现的次数;
根据所有所述义元出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;
分别计算每个义元在所述语义信息中出现的次数与所述总值的比值,确定每个义元的运算权重以及目标词的运算权重。
3.根据权利要求1所述的词向量生成方法,其特征在于,根据所述语义信息以及设定的目标词计算值确定运算权重,包括:
统计所述语义信息中,包含义元数量最多的语义对应的所有义元以及每个义元出现的次数;
根据所有所述义元在包含义元数量最多的语义下出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;
分别计算每个义元出现的次数与所述总值的比值,确定每个义元的运算权重以及目标词的运算权重。
4.根据权利要求1-3任意一项所述的词向量生成方法,其特征在于,所述目标词计算值根据所述目标词的区别判断程度,等于1或者等于所述语义信息中所有义元出现次数的总和。
5.根据权利要求1所述的词向量生成方法,其特征在于,根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量,包括,在所述词向量模型中提取义元对应的词向量,并根据下式及所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量:
新词向量中第n维的值X0n=Xan×Wa+Xbn×Wb+Xcn×Wc+……+Xn×W;
式中:Xan为义元a对应词向量中第n维的值,Wa为义元a的运算权重;Xbn为义元b对应词向量中第n维的值,Wb为义元b的运算权重;Xn为目标词对应词向量中第n维的值,W为目标词的运算权重。
6.一种支持极性区分和多义的词向量生成方法,其特征在于,包括:
获取当前业务场景下的词向量模型和资源文件,以及获取包含目标词的语句文本,所述资源文件包括当前业务场景下多个语义对应的义元;
根据所述词向量模型确定所述目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;
在所述语句文本中确定所述目标词的临近词集,所述邻近词集为所述语句文本中与所述目标词邻近的多个词语集合;
根据所述邻近词集与所述语义信息,确定与所述目标词在当前业务场景下的最关联语义,以及所述最关联语义下对应的每个义元出现次数;
根据所述最关联语义下每个义元出现次数和设定的目标词计算值确定每个义元的运算权重以及目标词的运算权重;
根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京玄一科技有限公司,未经北京玄一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810557309.9/1.html,转载请声明来源钻瓜专利网。





