[发明专利]图文匹配模型训练方法、图文匹配方法及装置在审
申请号: | 202111160003.8 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113901907A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 王昆;余威 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王云红;屈小春 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图文 匹配 模型 训练 方法 装置 | ||
本公开提供了一种图文匹配模型训练方法、图文匹配方法及装置,涉及计算机技术领域,尤其涉及人工智能和深度学习技术领域。具体实现方案为:获取训练样本集,训练样本集包括多个训练样本对和各自对应的样本标签,训练样本对包括样本图像和样本文本,样本标签表征样本图像和样本文本的相似程度;利用训练样本集,按照以下至少一种训练方式训练图文匹配模型:学习图像和文本之间的特征相关性;学习对图像特征进行文本识别。本公开技术方案,基于图文匹配模型提取特征,进行图文匹配,匹配精度高。
技术领域
本公开涉及计算机技术领域。本公开尤其涉及人工智能和深度学习技术领域。
背景技术
现有技术中,图像和文本匹配通常的方式通常包括两个分支,一个分支是首先对待处理图像进行光学字符识别(Optical Character Recognition,OCR),识别出待处理图像中的文字内容;另一个分支是将识别出的文字内容与待匹配的文本进行匹配计算,根据计算结果确定待处理图像和待处理文本是否匹配。
然而,通过OCR对待处理图像进行文字识别属于跨模态处理,会带来信息的损失,输入到文本匹配这个分支,会影响匹配的精度。
发明内容
本公开提供了一种图文匹配模型训练方法、图文匹配方法及装置。
根据本公开的一方面,提供了一种图文匹配模型训练方法,包括:
获取训练样本集,训练样本集包括多个训练样本对和各自对应的样本标签,训练样本对包括样本图像和样本文本,样本标签表征样本图像和样本文本的相似程度;
利用训练样本集,按照以下至少一种训练方式训练图文匹配模型:
学习图像和文本之间的特征相关性;
学习对图像特征进行文本识别。
根据本公开的一方面,提供了一种图文匹配方法,包括:
获取待处理图像和多个待处理文本;
基于图文匹配模型获取待处理图像的图像特征;
基于图文匹配模型获取多个待处理文本各自对应的文本特征;
基于图像特征和各文本特征,从待处理文本中确定与待处理图像匹配的目标文本;
其中,图文匹配模型是本公开任一实施例中的图文匹配模型训练方法训练得到的。
根据本公开的另一方面,提供了一种图文匹配模型训练装置,包括:
获取模块,用于获取训练样本集,训练样本集包括多个训练样本对和各自对应的样本标签,训练样本对包括样本图像和样本文本,样本标签表征样本图像和样本文本的相似程度;
训练模块,用于利用训练样本集,按照以下至少一种训练方式训练图文匹配模型:
学习图像和文本之间的特征相关性;
学习对图像特征进行文本识别。
根据本公开的另一方面,提供了一种图文匹配装置,包括:
获取模块,用于获取待处理图像和多个待处理文本;
第一特征提取模块,用于基于图文匹配模型获取待处理图像的图像特征;
第二特征提取模块,用于基于图文匹配模型获取多个待处理文本各自对应的文本特征;
匹配模块,用于基于图像特征和各文本特征,从待处理文本中确定与待处理图像匹配的目标文本;
其中,图文匹配模型是基于本公开任一实施例中的图文匹配模型训练方法训练得到的。
根据本公开的另一方面,提供了一种电子设备,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111160003.8/2.html,转载请声明来源钻瓜专利网。