[发明专利]一种文本的处理方法、装置、设备和介质有效
申请号: | 202210762364.8 | 申请日: | 2022-06-30 |
公开(公告)号: | CN114821605B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 李晓川;赵雅倩;李仁刚;郭振华;范宝余 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/19;G06V30/18;G06V10/80 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘颖 |
地址: | 215100 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 设备 介质 | ||
本申请涉及人工智能技术领域,公开了一种文本的处理方法、装置、设备和介质,对获取的待分析图像和文本进行编码处理,得到输入特征;文本包括第一文本和第二文本;输入特征包括初始图像特征和初始文本特征。依据设定的同质注意力机制,对初始图像特征和初始文本特征进行相关性分析,得到中间图像特征和中间文本特征;依据设定的异质注意力机制,对中间图像特征和中间文本特征进行跨模态分析,得到异质图像特征和异质文本特征。利用打分器对异质图像特征和异质文本特征进行分析,确定出与第一文本匹配的目标文本。通过设定同质注意力机制和异质注意力机制,充分挖掘多模态特征的属性,可以更加准确的筛选出与第一文本匹配的目标文本。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本的处理方法、装置、设备和计算机可读存储介质。
背景技术
视觉常识推理(Visual Commonsense Reasoning,VCR)指的是根据指定图像,在4个选项中选择最符合提问语句描述的答案,并在额外4个选项中选择支撑该答案的理论依据。多模态人工智能通常涉及视觉、语音、文本以及各类型传感信号等多模态的数据输入,这与日常场景中出现的情形较为相似,因此拥有更好的落地前景,成为当前国际上主流研究方向之一。VCR任务是多模态领域的一个任务分支,属于多模态智能理解的范畴,旨在使计算机获得“理解”的能力,即通过观察图像,根据提问中涉及的目标人物进行回答。VCR任务对答案提供了4个选项,计算机需要在4个选项中选择最符合条件的输出。
transformer结构输入输出的接口相对灵活,且结构本身不改变特征的维度。现阶段最为广泛的是基于transformer结构的视觉常识推理系统,对指定图像选择最符合提问语句描述的答案。首先,对输入的图像和若干条文本进行编码:图像采用卷积神经网络进行编码。输入问句、候选答案语句、候选解释语句,采用现成的文本编码器进行特征提取。采用固定字符来表示候选答案和候选解释合理的概率,该字符通过一个固定的向量编码来表示,即概率嵌入向量。
这类型的方法通过堆叠transformer结构实现了多模态特征的联合编码,从而实现了不同模态特征间的交互,最终通过指定位置特征的解码,预测当前候选答案和解释符合要求的概率。全连接层的transformer结构简单粗暴的将所有特征拼接在一起,通过注意力机制计算所有特征间的关系,这样会加大模型的学习难度。
可见,如何在不增加模型学习难度的同时提升模型的特征筛选能力,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种文本的处理方法、装置、设备和计算机可读存储介质,可以在不增加模型学习难度的同时提升模型的特征筛选能力。
为解决上述技术问题,本申请实施例提供一种文本的处理方法,包括:
对获取的待分析图像和文本进行编码处理,得到输入特征;其中,所述文本包括第一文本和第二文本;所述第一文本和所述第二文本具有映射关系;所述输入特征包括初始图像特征和初始文本特征;
依据设定的同质注意力机制,对所述初始图像特征和所述初始文本特征进行相关性分析,得到中间图像特征和中间文本特征;
依据设定的异质注意力机制,对所述中间图像特征和所述中间文本特征进行跨模态分析,得到异质图像特征和异质文本特征;
利用打分器对所述异质图像特征和所述异质文本特征进行分析,确定出与所述第一文本匹配的目标文本;其中,所述目标文本为所述第二文本包含的文本。
可选地,所述依据设定的同质注意力机制,对所述初始图像特征和所述初始文本特征进行相关性分析,得到中间图像特征和中间文本特征包括:
根据所述初始图像特征、所述初始文本特征以及模型训练得到的特征空间转换矩阵和映射矩阵,构建图结构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210762364.8/2.html,转载请声明来源钻瓜专利网。