[发明专利]图片处理方法、文本处理方法、相关设备及存储介质在审
申请号: | 202110975132.6 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113627567A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 张恒 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06T11/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 处理 方法 文本 相关 设备 存储 介质 | ||
本公开关于图片处理方法、文本处理方法、相关设备及存储介质,其中,图片处理方法包括:获取待处理图片,对待处理图片进行切片处理得到图片块序列;将图片块序列中的图片块输入自编码网络的编码器进行编码处理,得到每个图片块对应的嵌入向量;各图片块对应的嵌入向量构成图片向量序列;将图片向量序列输入图片生成文本模型,得到输出的所述待处理图片对应的描述文本。本公开简化了图片生成文本模型的模型结构,并提升了图片生成文本的准确性和稳定性。
技术领域
本公开涉及计算机技术领域,尤其涉及图片处理方法、文本处理方法、相关设备及存储介质。
背景技术
目前,在一些应用场景下,需要根据输入的文本信息自动生成符合该文本信息的图片,例如根据用户的描述文本来自动生成视频或者直播的封面等;而在另一些应用场景下,需要根据图片内容自动生成符合该图片的描述文本,例如根据商品图片自动生成相应的商品描述。
相关技术中,在需要文本生成图片的场景中一般采用生成对抗式网络模型来实现,但是生成对抗式网络模型仅能实现单向的从文本生成图片,因此在需要图片生成文本时还需要构建不同结构的网络模型,导致相关技术在文本生成图片和图片生成文本这两种应用场景下的模型结构设计复杂,并且模型的准确性和鲁棒性均较差。
发明内容
本公开提供图片处理方法、文本处理方法、相关设备及存储介质,以至少解决相关技术中在文本生成图片和图片生成文本这两种应用场景下的模型结构设计复杂,以及模型的准确性和鲁棒性均较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图片处理方法,包括:
获取待处理图片,对所述待处理图片进行切片处理得到图片块序列;
将所述图片块序列中的图片块输入自编码网络的编码器进行编码处理,得到每个所述图片块对应的嵌入向量;各所述图片块对应的嵌入向量构成图片向量序列;
将所述图片向量序列输入图片生成文本模型,得到输出的所述待处理图片对应的描述文本。
在一个示例性的实施方式中,所述图片生成文本模型的训练方法包括:
获取第一样本图片文本对;所述第一样本图片文本对包括第一样本图片和所述第一样本图片的描述文本;
对所述第一样本图片文本对中的第一样本图片进行切片处理,得到第一样本图片块序列;
将所述第一样本图片块序列中的第一样本图片块输入所述自编码网络的编码器进行编码处理,得到每个所述第一样本图片块对应的嵌入向量;各所述第一样本图片块对应的嵌入向量构成第一样本图片向量序列;
将所述第一样本图片向量序列输入第一预设神经网络进行文本预测,得到输出的预测文本;
根据所述预测文本与所述描述文本之间的差异,对所述第一预设神经网络进行训练,得到所述图片生成文本模型。
在一个示例性的实施方式中,所述方法还包括:
获取第一原始样本图片文本对;所述第一原始样本图片文本对包括第一原始样本图片和所述第一原始样本图片的描述文本;
对所述第一原始样本图片文本对中的第一原始样本图片进行图片增强处理,得到所述第一原始样本图片对应的多个第一增强样本图片;
对所述第一原始样本图片文本对中所述第一原始样本图片的描述文本进行文本增强处理,得到多个第一增强样本文本;
根据所述多个第一增强样本图片和所述多个第一增强样本文本,生成多个第一增强样本图片文本对;
根据所述第一原始样本图片文本对和所述多个第一增强样本图片文本对,得到所述第一样本图片文本对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110975132.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多尺度卷积的加权融合图像去雾方法及装置
- 下一篇:一种电热干发器