[发明专利]一种融合解耦表征的长尾词义消歧方法在审
申请号: | 202211265279.7 | 申请日: | 2022-10-16 |
公开(公告)号: | CN115600591A | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 贺瑞芳;张俊伟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300350 天津市津南区海河教育园*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 表征 长尾 词义 方法 | ||
1.一种融合解耦表征的长尾词义消歧方法,其特征在于,包括以下步骤:
由待消歧文本学习目标词的词嵌入,亦即目标词嵌入,获得目标词嵌入的编码器由预训练语言模型BERT实现,且该编码器被称为目标词编码器;
由词典中词义定义文本学习词义定义的文本嵌入,亦即词义定义嵌入,获得词义定义嵌入的编码器由预训练语言模型BERT实现,且该编码器被称为定义编码器;
将由目标词编码器与定义编码器分别获得的目标词嵌入与词义定义嵌入一式两份,一份直接用于计算目标词属于各个词义定义的得分,即目标词嵌入与各个词义定义之间的相似度,该得分被称为传统表征方法下的得分;另一份使用解耦表征方法将其重塑为解耦表征,并采用相同的方法计算解耦表征下目标词属于各个词义定义的得分,该得分被称为解耦表征方法下的得分;将两种表征方法下获得的得分进行加权求和,并将其作为最终的词义得分用于判别目标词所属的词义;
获取解耦表征的方法具体为一种受量子理论中纠缠态启发的变分自编码器(Variational AutoEncoder,VAE),该方法在VAE模型的基础之上构造,能够有效降低VAE模型的采样噪声;在实施过程中会像VAE模型一样主要被呈现为添加到损失函数的约束项,以指导、约束生成解耦的目标词嵌入和解耦的词义定义嵌入;对于长尾词义消歧任务而言,由于获取解耦表征不需要深度网络模型对特征进行深层次的抽取与融合,能够降低对训练样本的依赖;同时基于解耦表征,长尾词义消歧系统能够有针对性地去选择一些决定性的特征以实现表征降维的目的;
在模型训练过程中,通过直接优化系统最终输出的词义相似度得分,以实现目标词编码器与定义编码器联合训练,进而实现待消歧文本中的高频词义嵌入增强词典中词义定义嵌入的表征能力。
2.根据权利要求1所述一种融合解耦表征的长尾词义消歧方法,其特征在于,获取目标词嵌入具体包括:
(101)对待消歧文本实施编码:对于含目标词的待消歧文本Wtext,
Wtext=[w1,w2,…,wi,…] (1)
其中wi指构成待消歧文本的单词,为表述上的清晰特意省去下标text,此外目标词wtarget属于Wtext,即wtarget∈Wtext,采用预训练语言模型BERT的通行作法,在文本的开头与结尾处分别添加开始标记[CLS]与结束标记[SEP],
Wtext=[[CLS],w1,w2,…,wi,…,[SEP]]; (2)
同时采用BERT模型的编码方法BertTokenizer(·)将添加标记后的文本中的单词编码为对应的编号,以获得待消歧文本的编码文本,
Ctext=BertTokenizer(Wtext) (3)
其中开始标记被编码为编号101,结束标记被编码为编号102,其它单词则被编码为一个具体的编号。此外需要说明的是对于英语中的动词的过去式和过去分词形式将依照BERT模型的通行作法将其分割为两项进行处理;
(102)对编码文本向量化,获得目标词嵌入:采用BERT模型的向量化方法Bert(·)将编码文本Ctext中对应编号的单词向量化为词嵌入,
其中与分别表示编码文本中开始与结束标记对应的词嵌入;vtarget对应的词嵌入则为目标词的词嵌入,即目标词嵌入;
最后,待消歧文本经由目标词编码器处理之后获得的目标词嵌入被表示为:
Vtarget≡vtarget。 (6)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211265279.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管桩高压釜使用后能源再利用系统
- 下一篇:夹层玻璃和车辆