[发明专利]支持极性区分和多义的词向量生成方法及装置有效
| 申请号: | 201811498188.1 | 申请日: | 2018-12-07 |
| 公开(公告)号: | CN109614617B | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 杨凯程;李健铨;蒋宏飞 | 申请(专利权)人: | 安徽省泰岳祥升软件有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279 |
| 代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 230088 安徽省合肥市高新区习友路333*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 支持 极性 区分 多义 向量 生成 方法 装置 | ||
1.一种支持极性区分和多义的词向量生成方法,其特征在于,包括:
获取当前业务场景下的词向量模型和资源文件,所述资源文件包括当前业务场景下多个语义对应的义元;
根据所述词向量模型确定目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;
根据所述语义信息,统计当前目标词对应的所有语义下,义元以及每个义元出现的次数;
根据所有所述义元出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;
分别计算每个义元在所述语义信息中出现的次数与所述总值的比值,确定每个义元的运算权重以及目标词的运算权重;
其中,所述目标词计算值根据所述目标词的区别判断程度,等于1或者等于所述语义信息中所有义元出现次数的总和;
根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量;
其中,所述根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量,包括,在所述词向量模型中提取义元对应的词向量,并根据下式及所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量:
新词向量中第n维的值X0n=Xan×Wa+Xbn×Wb+Xcn×Wc+……+Xn×W;
式中:Xan为义元a对应词向量中第n维的值,Wa为义元a的运算权重;Xbn为义元b对应词向量中第n维的值,Wb为义元b的运算权重;Xn为目标词对应词向量中第n维的值,W为目标词的运算权重。
2.根据权利要求1所述的词向量生成方法,其特征在于,根据所述语义信息以及设定的目标词计算值确定运算权重,包括:
统计所述语义信息中,包含义元数量最多的语义对应的所有义元以及每个义元出现的次数;
根据所有所述义元在包含义元数量最多的语义下出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;
分别计算每个义元出现的次数与所述总值的比值,确定每个义元的运算权重以及目标词的运算权重。
3.一种支持极性区分和多义的词向量生成方法,其特征在于,包括:
获取当前业务场景下的词向量模型和资源文件,以及获取包含目标词的语句文本,所述资源文件包括当前业务场景下多个语义对应的义元;
根据所述词向量模型确定所述目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;
其中,所述目标词计算值根据所述目标词的区别判断程度,等于1或者等于所述语义信息中所有义元出现次数的总和;
在所述语句文本中确定所述目标词的临近词集,所述邻近词集为所述语句文本中与所述目标词邻近的多个词语集合;
根据所述邻近词集与所述语义信息,确定与所述目标词在当前业务场景下的最关联语义,以及所述最关联语义下对应的每个义元出现次数;
根据所述语义信息,统计所述最关联语义下的义元,以及每个义元出现的次数;
根据所有所述义元在所述最关联语义下出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;
分别计算每个义元出现的次数与所述总值的比值,确定每个义元以及目标词的运算权重;
根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量。
4.根据权利要求3所述的词向量生成方法,其特征在于,根据所述邻近词集与所述语义信息,确定与所述目标词在当前业务场景下的最关联语义,包括:
设定窗口值,根据所述窗口值,在所述语句文本中提取所述目标词的邻近词集,所述邻近词集包括位于所述目标词之前的前文词,以及位于所述目标词之后的后文词;
根据所述原始词向量,分别计算所述邻近词集中每个前文词、每个后文词与每个所述义元之间的词语距离;
根据所述词语距离确定每个语义下的距离平均值;
对比每个语义下的距离平均值,确定所述距离平均值中最小值对应的语义为所述目标词的最关联语义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽省泰岳祥升软件有限公司,未经安徽省泰岳祥升软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811498188.1/1.html,转载请声明来源钻瓜专利网。





