[发明专利]新词召回方法和领域词向量表生成方法及其装置在审

专利信息
申请号: 202010858432.1 申请日: 2020-08-24
公开(公告)号: CN114091437A 公开(公告)日: 2022-02-25
发明(设计)人: 胡祖杰 申请(专利权)人: 中国电信股份有限公司
主分类号: G06F40/247 分类号: G06F40/247;G06F40/289
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 张荣海
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 新词 召回 方法 领域 量表 生成 及其 装置
【说明书】:

发明涉及新词召回方法和词向量表生成方法及其装置。提供了一种新词召回方法,包括:接收特定领域的一个或多个文档;对每个文档进行分词;计算通过分词发现的新词的左右熵和互信息熵,并基于左右熵和互信息熵获得新词的信息熵得分;基于所述文档以及通用文档,计算每个新词在文档中的词频以及在所述文档和通用文档中的逆文档频率,并基于词频和逆文档频率获得每个新词在每个文档中的词频‑逆文档频率得分;计算每个新词在所有文档中的总词频‑逆文档频率得分;基于每个新词的信息熵得分和总词频‑逆文档频率得分,获得每个新词的领域词得分;以及根据领域词得分对所有新词进行排序,将领域词得分最高的预定数量的新词确定为新的领域词。

技术领域

本技术涉及自然语言处理的技术领域,更具体地,涉及新词召回方法和领域词向量表生成方法及其装置。

背景技术

词向量可以理解为是词嵌入式自然语言处理中的一组语言建模和特征学习技术的统称。词向量包括对词汇表中的单词或短语进行向量化表征,以将其转换成模型可以计算的数值形式。词的向量化编码和句子分词一样,是构建整个自然语言处理模型最底层也是最关键的一个环节。向量化表征将会对整个自然语言处理模型的性能产生重要影响。

为了实现对每个词的向量化表征,通常有两种表示方式。一类是单热表示(one-hot representation),这种方法把每个词表示为一个长向量,这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个向量就代表了当前的词,相当于给每个词分配一个id。这就导致这种表示方式不能展示词与词之间的关系,同时导致特征空间非常大。

为了解决上述问题,另一类方式出现了,称为词嵌入(word embedding)或词向量化,其将词转化成一种分布式表示,编码成一个定长的连续的稠密向量。通过这种方法能够表征词之间存在的相似关系,同时包含更多信息。该稠密向量的维度数量与单热表示的维度数量相比小得多,通常具有约50-100个维度,并且每一维都有特定的含义。

在实际的自然语言文本处理过程中,要处理的文档常常会不断出现新的词语,导致语言模型不能准确识别文档。

因此,需要提出一种新的技术来解决上述现有技术中的一个或多个问题。

发明内容

根据本公开的一个方面,提供了一种新词召回方法,包括:接收特定领域的一个或多个文档;对所述一个或多个文档中的每个文档进行分词;计算通过分词发现的新词的左右熵和互信息熵,并基于左右熵和互信息熵获得新词的信息熵得分;针对所述一个或多个文档,基于所述一个或多个文档以及通用文档,计算每个新词在所述每个文档中的词频以及在所述一个或多个文档和通用文档中的逆文档频率,并基于所述词频和逆文档频率获得每个新词在所述每个文档中的词频-逆文档频率得分;计算每个新词在所述一个或多个文档中的所有文档中的总词频-逆文档频率得分;基于每个新词的信息熵得分和总词频-逆文档频率得分,获得每个新词的领域词得分;以及根据领域词得分对所有新词进行排序,将领域词得分最高的预定数量的新词确定为新的领域词。

根据本公开的一个方面,提供了一种领域词向量表生成方法,包括:将使用上述方法获得的新的领域词并入领域词库中;接收特定领域的一个或多个文档;使用所述领域词库对所述一个或多个文档中的每个文档进行分词,获得词序列;使用所述词序列对基于神经网络的模型进行训练,并获得领域词向量表。

根据本公开的一个方面,提供了一种文档编解码方法,包括:接收特定领域的一个或多个文档;使用通过上述领域词向量表生成方法生成的领域词向量表对所述一个或多个文档进行编解码,从而获得编解码后的一个或多个文档,其中,在编解码的过程中,对于所述一个或多个文档中的未登录词,在同近义词表中搜索所述未登录词的同近义词,并使用搜索到的同近义词替换所述未登录词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010858432.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top