[发明专利]词向量生成方法、装置及电子设备有效

专利信息
申请号: 202010015008.0 申请日: 2020-01-07
公开(公告)号: CN111241819B 公开(公告)日: 2023-03-14
发明(设计)人: 庞超;王硕寰;孙宇;李芝 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/30
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 王艳斌
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 向量 生成 方法 装置 电子设备
【说明书】:

本申请提出一种词向量生成方法、装置及电子设备,涉及自然语言处理技术领域。其中,该方法包括:获取待处理语句,并获取待处理语句中的目标词;获取目标词的上下文信息;根据预设的分词与词向量的映射关系,确定目标词对应的上下文无关词向量;根据预设的字符与字向量的映射关系,确定上下文信息对应的上下文语义向量;以及根据上下文无关词向量与上下文语义向量,生成目标词对应的目标词向量。由此,通过这种词向量生成方法,不仅提高了自然语言理解的可靠性和通用性,而且降低了词向量生成的计算复杂度。

技术领域

本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,提出一种词向量生成方法、装置及电子设备。

背景技术

在自然语言处理(Natural Language Processing,简称NLP)领域,具有上下文语义表达能力的深度语言模型通常具有良好的语言表现能力。比如,来自转换器的双向编码表示(Bidirectional Encoder Representation from Transformers,简称BERT)模型,利用自注意力机制进行充分交互,构建了完整的上下文语境,使得文本中的每一个词语可以根据上下文语境的不同,拥有不同的语义,从而通过融合词语的上下文语境,提高了自然语言理解的可靠性。

然而,具有上下文语义表达能力的深度语言模型往往具有复杂的网络结构,如BERT基础模型拥有12层Tranformer网络结构,近3亿的网络参数,庞大的参数量导致模型的计算量巨大,推理时间较长。

发明内容

本申请提出的词向量生成方法、装置及电子设备,用于解决相关技术中,具有上下文语义表达能力的深度语言模型往往具有复杂的网络结构,庞大的参数量导致模型的计算量巨大,推理时间较长的问题。

本申请一方面实施例提出的词向量生成方法,包括:获取待处理语句,并获取所述待处理语句中的目标词;获取所述目标词的上下文信息;根据预设的分词与词向量的映射关系,确定所述目标词对应的上下文无关词向量;根据预设的字符与字向量的映射关系,确定所述上下文信息对应的上下文语义向量;以及根据所述上下文无关词向量与所述上下文语义向量,生成所述目标词对应的目标词向量。

本申请另一方面实施例提出的词向量生成装置,包括:第一获取模块,用于获取待处理语句,并获取所述待处理语句中的目标词;第二获取模块,用于获取所述目标词的上下文信息;第一确定模块,用于根据预设的分词与词向量的映射关系,确定所述目标词对应的上下文无关词向量;第二确定模块,用于根据预设的字符与字向量的映射关系,确定所述上下文信息对应的上下文语义向量;以及生成模块,用于根据所述上下文无关词向量与所述上下文语义向量,生成所述目标词对应的目标词向量。

本申请再一方面实施例提出的电子设备,其包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的词向量生成方法。

本申请又一方面实施例提出的存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如前所述的词向量生成方法。

上述申请中的任一个实施例具有如下优点或有益效果:通过预设分词与词向量的映射关系及字符与字向量的映射关系,以在对待处理语句进行处理时,可以直接通过对词向量及字向量的检索组合,生成目标词融合了上下文语境的词向量表示,从而不仅提高了自然语言理解的可靠性和通用性,而且降低了词向量生成的计算复杂度。因为采用了通过获取待处理语句中的目标词及目标词的上下文信息,并根据预设的分词与词向量的映射关系,确定目标词对应的上下文无关词向量,之后根据预设的字符与字向量的映射关系,确定上下文信息对应的上下文语义向量,进而根据上下文无关词向量与上下文语义向量,生成目标词对应的目标词向量的技术手段,所以克服了具有上下文语义表达能力的深度语言模型的网络结构复杂,计算量巨大、推理时间较长的问题,进而达到了提高自然语言理解的可靠性和通用性,降低词向量生成的计算复杂度的技术效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010015008.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top