[发明专利]词义消歧方法、装置、电子设备及计算机可读存储介质有效
申请号: | 202111249932.6 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113704416B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 张剑;杨大明;黄石磊;蒋志燕 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/166;G06F40/274 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 刘洁 |
地址: | 518036 广东省深圳市福田区梅林街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词义 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请涉及一种词义消歧方法,所述方法包括:获取待处理文本,确定待处理文本中的待消歧词,以及待消歧词的上文和所述待消歧词的下文,从预设的语义知识库中搜索待消歧词对应的多个定义解释,对多个定义解释进行向量化,得到定义矩阵,基于定义矩阵构建对应的分类器,将上文、下文和待消歧词输入至分类器,得到待消歧词的预测候选词,利用预测候选词对待消歧词进行替换,得到消除歧义后的标准文本。此外,本申请还涉及一种词义消歧装置、设备及存储介质。本申请可解决词义消歧的准确度不够高的问题。
技术领域
本申请涉及文本处理领域,尤其涉及一种词义消歧方法、装置、电子设备及计算机可读存储介质。
背景技术
在语言词汇中存在着一定数量的歧义词,虽然歧义词的出现为自然语言的应用带来了便利,但是也为自然语言的理解和翻译带来了一定的困难。随着人工智能的兴起,词义消歧在诸多高新领域中的应用越来越多,已经成为了一个自然语言处理中需要解决的重要难题。
现有的词义消歧方法通常是结合机器学习来进行词义消歧,这种方法需要大量的人工标注训练语料,代价昂贵。同时利用人工标注训练语料并不能全面且准确地标注出不常见且具有多重含义的词语,因此导致词义消歧的准确度不够高。
发明内容
本申请提供了一种词义消歧方法、装置、电子设备及存储介质,以解决词义消歧的准确度不够高的问题。
第一方面,本申请提供了一种词义消歧方法,所述方法包括:
获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
详细地,所述将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词,包括:
对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量;
对所述上文向量、所述歧义词向量和所述下文向量进行向量平均,得到语义向量;
将所述语义向量输入至所述分类器,得到所述待消歧词的预测候选词。
详细地,所述对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量,包括:
分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集;
将所述掩码数据集转换为向量数据集,并对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵;
将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中,得到上文向量、歧义词向量和下文向量。
详细地,所述分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集,包括:
利用预获取的掩码概率从所述上文、所述下文和所述待消歧词中筛选出多个关键词,对所述多个关键词进行掩码处理,得到所述关键词对应的掩码词;
利用所述掩码词替换所述关键词,得到掩码数据集。
详细地,所述对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵,包括:
对所述向量数据集进行位置编码处理,得到位置向量集;
将所述位置向量集转换为位置向量矩阵,并根据所述位置向量矩阵的维度生成分类矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111249932.6/2.html,转载请声明来源钻瓜专利网。