[发明专利]文本摘要生成方法及其装置、设备、介质、产品在审

专利信息
申请号: 202111626683.8 申请日: 2021-12-28
公开(公告)号: CN114328898A 公开(公告)日: 2022-04-12
发明(设计)人: 梁源通 申请(专利权)人: 广州华多网络科技有限公司
主分类号: G06F16/34 分类号: G06F16/34;G06F16/35;G06F16/31;G06F16/583;G06N3/08
代理公司: 广州利能知识产权代理事务所(普通合伙) 44673 代理人: 王增鑫
地址: 511442 广东省广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 摘要 生成 方法 及其 装置 设备 介质 产品
【说明书】:

本申请公开一种文本摘要生成方法、装置、计算机设备及存储介质,包括:获取待处理的文本文件;根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。使注意力计算的时间复杂度由与输入文本长度平方成正比,降低为L log L,其中,L是指桶桶内文本的长度。由此可见,本实施方式能够大大降低现有注意力模型中注意力计算的复杂度,进而降低模型提取摘要所需的算力和训练时。

技术领域

本申请实施例涉及文本处理领域,尤其是一种文本摘要生成方法、装置、产品、计算机设备及存储介质。

背景技术

随着大数据时代的到来、硬件的计算能力的增强,深度学习技术取得了显著的发展,其中,在文本摘要生成领域,文本摘要这一重要任务在电商中有着广泛的应用,随着用户规模、店铺、商品规模的不断扩大,诸如在买家商品评论、卖家商品大段文字介绍等,如果全部进行人工筛选编辑需要耗费大量的人力成本,利用文本摘要这一技术对长文本进行处理,抽取其中的关键信息是非常必要的。

本申请的发明人在研究中发现,现有技术中的摘要抽取方式为:以Transformer为蓝本的预训练模型,如BERT、GPT等模型对文本的摘要进行提取。但是,在实践中由于模型计算量主要集中在注意力计算与前馈层方面,其计算复杂度与显存占用均与文本长度的平方成正比,面对长文本数据现有模型所需算力较大,训练时间过长。

发明内容

本申请实施例提供一种通过对文本文件进行近似度分类进而降低模型运算算力和训练时间的文本摘要生成方法、装置、产品、计算机设备及存储介质。

为解决上述技术问题,本申请创造的实施例采用的一个技术方案是:提供一种文本摘要生成方法,包括:

获取待处理的文本文件;

根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;

将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;

根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。

可选地,所述获取待处理的文本文件包括:

获取商品图片的上传指令;

根据所述上传指令采集所述商品图片对应的文本文件。

可选地,所述根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内包括:

根据所述局部敏感哈希函数计算所述文本文件中各文本字符的哈希值,其中,所述局部敏感哈希函数通过所述各文本字符之间的邻近距离,约束所述各文本字符的哈希值;

将所述各文本字符中对应哈希值之差小于等于预设哈希阈值的文本字符存储在同一个数据桶内。

可选地,所述摘要生成模型包括注意力层和前馈神经网络层;所述将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中包括:

将所述多个数据桶内的文本字符输入至所述注意力层中,生成注意力特征;

将所述注意力特征和所述文本文件合并生成第一输入数据,并将所述第一输入数据输入至所述前馈神经网络层,生成第一特征数据;

将所述第一特征数据和所述多个数据桶内的文本字符合并生成第二输入数据,并将所述第二输入数据作为下一处理环节的输入数据。

可选地,所述摘要生成模型包括编码器和解码器;所述摘要生成模型的训练方法包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111626683.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top