[发明专利]词义消歧方法、装置、电子设备及计算机可读存储介质有效
申请号: | 202111249932.6 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113704416B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 张剑;杨大明;黄石磊;蒋志燕 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/166;G06F40/274 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 刘洁 |
地址: | 518036 广东省深圳市福田区梅林街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词义 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种词义消歧方法,其特征在于,所述方法包括:
获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;
利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本;
其中,所述将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词,包括:
对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量;
对所述上文向量、所述歧义词向量和所述下文向量进行向量平均,得到语义向量;
将所述语义向量输入至所述分类器,得到所述待消歧词的预测候选词;
其中,所述对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量,包括:
分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集;
将所述掩码数据集转换为向量数据集,并对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵;
将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中,得到上文向量、歧义词向量和下文向量;
其中,所述对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵,包括:
对所述向量数据集进行位置编码处理,得到位置向量集;
将所述位置向量集转换为位置向量矩阵,并根据所述位置向量矩阵的维度生成分类矩阵;
根据所述位置向量矩阵、所述分类矩阵和预设的激活函数计算得到所述位置向量集对应的原始向量相关矩阵;
利用所述原始向量相关矩阵和所述位置向量矩阵调节预构建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵。
2.根据权利要求1所述的词义消歧方法,其特征在于,所述分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集,包括:
利用预获取的掩码概率从所述上文、所述下文和所述待消歧词中筛选出多个关键词,对所述多个关键词进行掩码处理,得到所述关键词对应的掩码词;
利用所述掩码词替换所述关键词,得到掩码数据集。
3.根据权利要求1或2所述的词义消歧方法,其特征在于,所述获取待处理文本之后,所述方法还包括:
对所述待处理文本进行清洗去脏,得到清洗数据集;
将所述清洗数据集拆分为多个句子,得到分句数据集;
利用基准分词器对所述分句数据集进行分词处理,得到预处理的待处理文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111249932.6/1.html,转载请声明来源钻瓜专利网。