本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息,有效提升目标文本获取的准确性。
本公开提供了一种对象分割方法及对应模型的训练方法、装置及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition;OCR)等场景。具体实现方案为:基于原始图像,获取所述原始图像的语义分割特征;基于所述原始图像和语言表达,获取所述语言表达描述的待分割对象在所述原始图像中的定位特征;基于所述语义分割特征和所述定位特征,获取所述待分割对象在所述原始图像中的分割图。本公开的技术,能够有效地提高待分割对象的分割图的准确性,有效地极提升了引用实例分割的效果。