[发明专利]一种融合解耦表征的长尾词义消歧方法在审

专利信息
申请号: 202211265279.7 申请日: 2022-10-16
公开(公告)号: CN115600591A 公开(公告)日: 2023-01-13
发明(设计)人: 贺瑞芳;张俊伟 申请(专利权)人: 天津大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 300350 天津市津南区海河教育园*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 表征 长尾 词义 方法
【说明书】:

发明公开一种融合解耦表征的长尾词义消歧方法,包括:由待消歧文本学习目标词的词嵌入,亦即目标词嵌入,其中文本到向量的映射模型采用目标词编码器实现;由词典中的词义定义文本学习词义定义的文本嵌入,亦即词义定义嵌入,其中文本到向量的映射模型采用定义编码器实现;将获得的目标词嵌入与词义定义嵌入一式两份,一份直接用于计算传统表征方法下词义的相似度得分;另一份由解耦表征方法将其重塑,以获取解耦表征下词义的相似度得分,最后将两种表征方法下得分加权求和作为输出值;该解耦表征方法为一种受量子理论中纠缠态启发、基于VAE模型框架、能够有效降低原VAE模型采样噪声的表征方法。

技术领域

本发明涉及自然语言处理以及机器学习领域,具体为一种融合解耦表征的长尾词义消歧方法。

背景技术

随着存储设备、计算资源以及人工智能技术的不断发展与完善,智能系统的实用性与易用性也得以逐步改善,并被广泛地应用于工作、学习、生活的方方面面。如基于人脸识别技术的智能产品被应用于机场安检、手机银行、数字化营销等诸多领域,以实现精准的用户识别;基于语音识别技术的智能产品被整合于车载导航、智能家居、可穿戴设备等众多场景,以获得更为便捷的交互体验。可以说,智能系统正在逐步地融入到我们生活的各个领域,并将深远地影响着我们的生活方式。

词义消歧(Word Sense Disambiguation,WSD)旨在依据给定的上下文,为目标词确定一个词义清单中最有可能的词义,其中目标词指将要消歧的单词,词义清单指词典中列出的目标词的所有词义定义(或注释)的集合。词义消歧属于自然语言处理(NaturalLanguage Processing,NLP)领域中最为基础性的研究课题,属于词汇层级的研究任务,是一个标准的分类问题。但词义消歧的重要性却是不言而喻的,词义识别的准确程度将直接影响着下游任务的最终表现,如自然语言理解、自然语言生成、人机对话等任务。

当前,词义消歧系统已经能够很好的应对高频(头部)词义的识别任务,也就是说对于目标词的常用词义而言,词义消歧系统能够正确地识别。但对于低频(长尾)词义,目前的词义消歧系统还并不能够有效地应对。导致长尾词义消歧困难的原因在于:(1)长尾词义的训练样本不足;(2)长尾词义缺乏清晰且可区分的定义描述。正是因为长尾词义缺乏清晰的定义,在使用的过程中会造成歧义,所以人们在日常生活中会尽可能地去回避,进而导致其出现的频率下降。事实上,“词义”的概念本身就存在争议,人类并不总是能够对所有的词义达成一致的定义描述。

研究者们应对长尾词义消歧的主要思路可以归纳为数据增强的方法、知识迁移的方法和施加外部约束的方法。数据增强的方法尝试构造或引入外部数据以改善模型训练过程中长尾词义的弱势地位。其中最具代表性的方法是整合词典中的例句以提高训练样本的数量,或引入多语种词义定义文本以改善词义定义表征的准确性。知识迁移的方法尝试扩展目标词的上下文以增强长尾词义的语义信息,或融合其它领域的语义知识以强化长尾词义定义的表征效果。其中最受关注的方法是采用双编码器(即目标词编码器与词义定义编码器)联合训练的方式实现使用训练样本的语义知识强化长尾词义定义的表征。该方法的优势在于并没有引入外部知识,而是迁移训练样本中的语义信息增强词义定义的表征。施加外部约束的方法着眼于词义表征间内在的位置关系,尝试将词义表征映射到一个连续的语义空间,以实现表征之间相互的制约,最终达到由头部词义表征去校准长尾词义表征的目的。其中最有成效的方法是将原本的离散空间中的词义定义表征映射到连续空间,以获得对长尾词义定义或未知词义定义的有效推断。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211265279.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top