[发明专利]基于字向量与自注意力机制的语义相似度计算方法在审
申请号: | 201810823575.1 | 申请日: | 2018-07-25 |
公开(公告)号: | CN109145290A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 宋士祺;于丁文;宫俊 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/951;G06F16/332 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 王志强;李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 语义相似度 句子 注意力机制 语义信息 汉字 知识库 相似度计算 方案解决 模型计算 位置编码 向量表示 准确率 语料 替换 搜集 网络 | ||
1.一种基于字向量与自注意力机制的语义相似度计算方法,其特征在于,包括:
S1、面向指定领域搜集、爬取网络语料知识库,并生成每一个汉字的字向量表示;
S2、字向量依次替换句子S1、S2中的每一个汉字生成句向量;
对句子S1、S2中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量;
S3、对得到的语义信息向量A′1、A′2进行相似度计算,获得两个向量之间的语义相似度;
步骤S2中,具体包括以下步骤:
S21、假设句子S1、S2分别包含n、m个字,则句向量表示为S1=(w11,w12,…,w1n)、S2=(w21,w22,…,w2n);
句子S1为n×Model的矩阵,句子S2为m×Model的矩阵,wik代表第i个句子第k个字的向量化表示;
S22、句子S中的每个字向量只是单纯的罗列,没有包含句子顺序信息,因此,对句向量中的每个字进行位置编号然后对每个字向量分别进行Position Embedding构造,构造公式为:
PE(t,2i)=sin(t/100002i/Model);
PE(t,2i+1)=cos(t/100002i/Model);
公式中t为字向量在句子中位置的编号,i为当前字向量的第i个元素,Model即为字向量的维度;
S23、依次构造得到的位置向量PE与字向量进行简单的相加操作,得到S′1、S′2;
S24、对当前句子S′1、S′2中分别进行自注意力计算,得到句子内部的语义联系,计算公式为:
公式中第一次输入Q=K=V都是相同的句向量S′,也就是前面构造过的句向量;
S25、对当前注意力机制循环计算k次,每次得到的输出作为下一次训练的输入,最终将每次循环计算的结果进行线性映射到Model维内,得到最终的语义信息向量A′;
句向量S′1经过注意力计算得到n×Model维的向量A′1,S′2得到m×Model维的向量A′2。
2.根据权利要求1所述的基于字向量与自注意力机制的语义相似度计算方法,其特征在于,
步骤S1中,具体包括以下步骤:
S11、使用集搜客进行网络语料爬取,获取相应语料;
S12、对语料进行预处理,去除停用词、标点符号、无用数字,整理获得原始语料知识库;
S13、对单独每一个句子按照字进行切分,以句子为训练单位单个汉字依次输入Word2vec工具的CBOW算法生成维度为Model的字向量模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810823575.1/1.html,转载请声明来源钻瓜专利网。