本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息