[发明专利]一种语种识别方法、装置、电子设备及存储介质有效
申请号: | 201811543890.5 | 申请日: | 2018-12-17 |
公开(公告)号: | CN111339787B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 张雪雷;沈海峰;苟巍 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06V30/246 | 分类号: | G06V30/246;G06V30/41;G06V30/19 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 识别 方法 装置 电子设备 存储 介质 | ||
本申请涉及计算机视觉技术领域,尤其涉及一种语种识别方法、装置、电子设备及存储介质,其中,该方法包括:获取目标文本图像,其中,所述目标文本图像中携带有目标文本;将所述目标文本图像划分为多个目标文本子图像;根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种。采用上述方案,利用训练出的语种识别模型直接对文本图像进行语种识别,使得识别效率和识别准确率较高,适用性较强。
技术领域
本申请涉及计算机视觉技术领域,具体而言,涉及一种语种识别方法、装置、电子设备及存储介质。
背景技术
在世界范围内,不同国家的人使用不同种类的语言,相应地,文字也各不相同。因此,在自然场景图像中的文字所属的语种(如中文、英文、阿拉伯文等)也千差万别。为了解决语种和文字之间的障碍,光学文字识别(Optical Character Recognition,OCR)技术应运而生,且得到了广泛的应用。
在相关技术中,当需要识别图像中的文字信息时,通常需要先在图像中确定出文字行,然后使用OCR技术识别文字行中的文字信息。
然而,现有的OCR技术均需要假定文字所属的语种已知,也即,在基于OCR技术进行文字识别时,均需要预先指定待识别文字的语种。因此,当语种未知或指定错误时,OCR的识别效果较差,且通常需要针对不同的语种设计专门的OCR系统,适用性较差。
可见,目前尚缺乏识别图像中的文本语种的方案。
发明内容
有鉴于此,本申请实施例的目的在于提供一种语种识别方法、装置、电子设备及存储介质,能够基于文字图像进行语种识别,识别准确率较高。
主要包括以下几个方面:
第一方面,本申请实施例提供了一种语种识别方法,所述方法包括:
获取目标文本图像,其中,所述目标文本图像中携带有目标文本;
将所述目标文本图像划分为多个目标文本子图像;
根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种。
在一些实施例中,所述预先训练的语种识别模型中的内设参数用于反映所述目标文本图像与各个目标文本子图像之间的已知关联程度。
在一种实施方式中,所述将所述目标文本图像划分为多个目标文本子图像,包括:
将所述目标文本图像按照预设大小依次划分为多个目标文本子图像;
所述根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种,包括:
确定所述目标文本图像对应的图像特征向量;并按照所述多个目标文本子图像划分的逻辑顺序,确定所述多个目标文本子图像对应的文本特征矩阵;
将所述图像特征向量和所述文本特征矩阵,输入至预先训练的语种识别模型中,得到与所述目标文本对应的语种。
在一些实施例中,所述确定所述目标文本图像对应的图像特征向量,包括:
将所述目标文本图像输入至预先训练的图像特征提取模型中,得到所述目标文本图像对应的图像特征向量。
在一些实施例中,可以按照如下步骤训练所述图像特征提取模型:
获取参考文本图像;
确定与所述参考文本图像对应的图像特征向量;
将所述参考文本图像作为待训练的图像特征提取模型的输入,将确定的所述图像特征向量作为待训练的图像特征提取模型的输出,训练得到所述图像特征提取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811543890.5/2.html,转载请声明来源钻瓜专利网。