[发明专利]文本处理方法、装置、设备、存储介质及产品在审
申请号: | 202210339912.6 | 申请日: | 2022-04-01 |
公开(公告)号: | CN115114910A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 曾嘉莉;姜雨帆;吴双志 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 徐明霞 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 产品 | ||
本申请的实施例公开了一种文本处理方法、装置、设备、存储介质及产品,该方法包括:生成待处理文本的词向量序列,该词向量序列表示待处理文本中包含的各个词所对应的词向量;基于待处理文本的词向量序列,获得词向量序列中的各个词向量的置信度,该置信度表示词向量对应的语义对文本处理任务的重要度;根据各个词向量的置信度和词向量序列,生成待处理文本对应的关键信息;基于待处理文本对应的关键信息,生成待处理文本针对文本处理任务的处理结果。本申请实施例的技术方案提高了文本处理结果的准确性。
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种文本处理方法、文本处理装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
相关技术中提出的大规模预训练语言模型为自然语言领域带来了新的突破。目前,预训练语言模型在开放对话、知识问答和可控文本生成等认知推理任务上均有不错的表现。但是,相关技术中提出的预训练语言模型由于都倾向于将待处理文本编码到一个较小的空间区域,导致语句之间的区分性较低,进而影响了文本处理的效果。
发明内容
为解决上述技术问题,本申请的实施例提供了一种文本处理方法、文本处理装置、电子设备、计算机可读存储介质及计算机程序产品,可以提高文本处理结果的准确性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本处理方法,包括:生成待处理文本的词向量序列,所述词向量序列表示所述待处理文本中包含的各个词所对应的词向量;基于所述待处理文本的词向量序列,获得所述词向量序列中的各个词向量的置信度;所述置信度表示词向量对应的语义对文本处理任务的重要度;根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息;基于所述待处理文本对应的关键信息,生成所述待处理文本针对所述文本处理任务的处理结果。
根据本申请实施例的一个方面,提供一种模型训练方法,包括:获取样本文本,将所述样本文本的样本词向量序列输入到待训练模型中,以获得所述待训练模型生成的所述样本文本对应的关键信息,所述待训练模型用于获得所述样本词向量序列中的各个样本词向量的置信度,并根据所述各个样本词向量的置信度和所述样本词向量序列,生成所述样本文本对应的关键信息;根据所述样本文本的样本词向量序列,生成所述样本文本对应的冗余信息;根据所述样本文本对应的关键信息和所述样本文本对应的冗余信息,构建所述待训练模型对应的第一损失;根据所述第一损失调整所述待训练模型的模型参数,以得到所述文本处理模型。
根据本申请实施例的一个方面,提供了一种文本处理装置,包括:向量生成模块,用于生成待处理文本的词向量序列,所述词向量序列表示所述待处理文本中包含的各个词所对应的词向量;置信度获得模块,用于基于所述待处理文本的词向量序列,获得所述词向量序列中的各个词向量的置信度;所述置信度表示词向量对应的语义对文本处理任务的重要度;信息生成模块,用于根据所述各个词向量的置信度和所述词向量序列,生成所述待处理文本对应的关键信息;处理模块,用于基于所述待处理文本对应的关键信息,生成所述待处理文本针对所述文本处理任务的处理结果。
在本申请的一实施例中,所述信息生成模块具体用于基于所述各个词向量的置信度与所述各个词对应的词向量,计算得到各个词的语义信息保留度;对所述各个词向量的置信度进行扰动处理,得到所述各个词的扰动度;根据所述各个词的语义信息保留度和所述各个词的扰动度,计算各个关键词对应的词向量,将多个关键词分别对应的词向量所生成的序列作为所述关键信息。
在本申请的一实施例中,基于以下公式,根据所述各个词的语义信息保留度和所述各个词的扰动度,计算各个关键词对应的词向量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210339912.6/2.html,转载请声明来源钻瓜专利网。