[发明专利]支持极性区分和多义的词向量生成方法及装置在审
| 申请号: | 201810557309.9 | 申请日: | 2018-06-01 |
| 公开(公告)号: | CN108829669A | 公开(公告)日: | 2018-11-16 |
| 发明(设计)人: | 杨凯程;李健铨;蒋宏飞 | 申请(专利权)人: | 北京玄一科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 100012 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词向量 向量 义元 多义 语义 运算 资源文件 目标词 权重 维度 动态生成 关联语义 加权运算 匹配结果 业务场景 语义信息 求和 构建 加权 申请 匹配 | ||
本申请提供一种支持极性区分和多义的词向量生成方法及装置,所述方法根据当前业务场景下已建立的词向量和资源文件,对目标词词向量中各维度的值进行加权运算,生成新词向量。本申请分别通过对资源文件中所有义元数、包含义元数量最多的语义下的义元数,以及最关联语义下的义元数,确定新词向量中各维度值的运算权重,从而根据运算权重在目标词与义元的词向量进行加权求和,获得新词向量并确定真实语义。方法能够动态生成新词向量,新词向量更加准确的反应实际语义特点,并且以语义信息作为基础确定运算权重,可以显著改善反义词和一词多义情况对匹配结果的影响,解决传统方法构建的词向量在一词多义及反义词情况下容易匹配错误的问题。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种支持极性区分和多义的词向量生成方法及装置。
背景技术
词向量是通过语言数字化,让计算机理解人类语言的一种词语表示方式。词向量能够通过一定维度的向量来表示一个词语,并揭示该词与其他词之间的关联关系,例如[0.792,-0.177,-0.107,0.109,-0.542,……],词向量一般由词向量训练模型中CBOW、Skip、GloVe等方法训练得出,词向量中各维度的具体值,根据收集的语料以及语料的训练方式确定。词向量可以应用在智能问答或文本分类过程中,通过对文本信息与词向量进行匹配,确定文本信息的含义。
实际文本信息处理过程中,单个词语会对应多种语义,为了计算机能够识别,每种语义通过多个义元来表示。义元是一种最基本,不易于再分割意义的语义单元。例如,词语“苹果”,至少就表示两种语义,即苹果公司和水果,其中,苹果公司语义下对应多个义元,如:特定牌子、电脑等,而水果语义下对应的义元为:树、水果。实际使用中,收集每个词语以及词语对应下的语义和义元可以构成能够直接调用的资源文件,如由OEC、同义词词林、HowNet等提供的资源文件。现有技术中,通过训练方法得到的词向量,是以收集的训练语料中目标词的出现情况对词语的语义进行整理。当目标词具有一词多义时,词向量中不能够充分体现目标词的多个语义,使得应用此词向量进行智能问答或文本分类时,不能准确的匹配目标词在使用语境中的真实语义。
另外,在实际文本信息处理的过程中,通常需要根据两个词的词向量之间距离来确定对应词语之间的语义关联性,例如,通过欧式距离或余弦距离来确定词语之间的距离,一般认为距离最近的两个词语的语义相近。但使用上述方法得到的词向量进行匹配时,在真实语义上距离近的词包含一些语义相反的反义词。例如,“提高”和“降低”与“信用卡额度”的距离都很近,通过上述词向量模型进行匹配时,可能会造成误判的情况,即将提高信用卡额度、升高信用卡额度匹配到降低信用卡额度上。
发明内容
本申请提供了一种支持极性区分和多义的词向量生成方法及装置,以解决传统方法构建的词向量在具有一词多义及反义词情况下容易匹配错误的问题。
第一方面,本申请提供一种支持极性区分和多义的词向量生成方法,包括:
获取当前业务场景下的词向量模型和资源文件,所述资源文件包括当前业务场景下多个语义对应的义元;
根据所述词向量模型确定目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;
根据所述语义信息以及设定的目标词计算值确定运算权重;
根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量。
可选的,根据所述语义信息以及设定的目标词计算值确定运算权重,包括:
根据所述语义信息,统计当前目标词对应的所有语义下,义元以及每个义元出现的次数;
根据所有所述义元出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京玄一科技有限公司,未经北京玄一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810557309.9/2.html,转载请声明来源钻瓜专利网。





