[发明专利]图片处理方法、文本处理方法、相关设备及存储介质在审

申请号：	202110975132.6	申请日：	2021-08-24
公开（公告）号：	CN113627567A	公开（公告）日：	2021-11-09
发明（设计）人：	张恒	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08;G06T11/00
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;贾允
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图片处理方法文本相关设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于图片处理方法、文本处理方法、相关设备及存储介质，其中，图片处理方法包括：获取待处理图片，对待处理图片进行切片处理得到图片块序列；将图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个图片块对应的嵌入向量；各图片块对应的嵌入向量构成图片向量序列；将图片向量序列输入图片生成文本模型，得到输出的所述待处理图片对应的描述文本。本公开简化了图片生成文本模型的模型结构，并提升了图片生成文本的准确性和稳定性。

技术领域

本公开涉及计算机技术领域，尤其涉及图片处理方法、文本处理方法、相关设备及存储介质。

背景技术

目前，在一些应用场景下，需要根据输入的文本信息自动生成符合该文本信息的图片，例如根据用户的描述文本来自动生成视频或者直播的封面等；而在另一些应用场景下，需要根据图片内容自动生成符合该图片的描述文本，例如根据商品图片自动生成相应的商品描述。

相关技术中，在需要文本生成图片的场景中一般采用生成对抗式网络模型来实现，但是生成对抗式网络模型仅能实现单向的从文本生成图片，因此在需要图片生成文本时还需要构建不同结构的网络模型，导致相关技术在文本生成图片和图片生成文本这两种应用场景下的模型结构设计复杂，并且模型的准确性和鲁棒性均较差。

发明内容

本公开提供图片处理方法、文本处理方法、相关设备及存储介质，以至少解决相关技术中在文本生成图片和图片生成文本这两种应用场景下的模型结构设计复杂，以及模型的准确性和鲁棒性均较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图片处理方法，包括：

获取待处理图片，对所述待处理图片进行切片处理得到图片块序列；

将所述图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个所述图片块对应的嵌入向量；各所述图片块对应的嵌入向量构成图片向量序列；

将所述图片向量序列输入图片生成文本模型，得到输出的所述待处理图片对应的描述文本。

在一个示例性的实施方式中，所述图片生成文本模型的训练方法包括：