[发明专利]字体识别方法和装置有效
申请号: | 201910918983.X | 申请日: | 2019-09-26 |
公开(公告)号: | CN110688949B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 程立双 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19;G06V20/62;G06V10/82;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 宋兴;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字体 识别 方法 装置 | ||
本申请实施例提供一种字体识别方法和装置,该方法包括:获取待识别的文本图片;从多个预设尺度的滑动窗口中选取至少一个预设尺度的滑动窗口;采用该至少一个预设尺度的滑动窗口,对该文本图片进行扫描,得到多个子文本图片;根据该多个子文本图片和机器学习模型,获取该文本图片中的文本的字体。本申请实施例可识别不同文本长度的文本图片中的文本的字体。
技术领域
本申请实施例涉及计算机技术,尤其涉及一种字体识别方法和装置。
背景技术
不论是现实生活中还是互联网世界,文本图片是人类接收丰富信息的窗口。为了让用户更好地了解文本图片中的文本,字体识别技术已经变得尤为重要。其中,字体识别是通过计算机视觉技术确定文本图片中的文本的字体。
目前的识别字体的方法仅能识别文本长度为预设长度的文本图片中的文本的字体,比如只能识别文本长度为1的文本图片中的文本的字体;无法识别不同文本长度的文本图片中的文本的字体。
发明内容
本申请实施例提供一种字体识别方法和装置,可识别不同文本长度的文本图片中的文本的字体。
第一方面,本申请实施例提供一种字体识别方法,包括:获取待识别的文本图片;从多个预设尺度的滑动窗口中选取至少一个预设尺度的滑动窗口;采用所述至少一个预设尺度的滑动窗口,对所述文本图片进行扫描,得到多个子文本图片;根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体。
在一种可能的设计中,所述根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体,包括:根据所述多个子文本图片和第一机器学习模型,得到所述文本图片的深度特征;根据所述深度特征和基于注意力机制的第二机器学习模型,获取所述文本图片中的文本的字体。
在一种可能的设计中,所述第一机器学习模型包括Q个特征提取神经网络模型和P个平移不变神经网络模型;所述特征提取神经网络模型和所述平移不变神经网络模型在所述第一神经网络模型中交替排列;所述特征提取神经网络模型和所述平移不变神经网络模型均用于提取多个子文本图片中的深度特征,其中,所述特征提取神经网络模型所包括的滤波器为训练所述第一机器学习模型时得到的滤波器,所述平移不变神经网络模型所包括的滤波器为预设滤波器;Q和P均为正整数。
在一种可能的设计中,所述基于注意力机制的第二机器学习模型包括第一神经网络模型和基于注意力机制的第二神经网络模型;所述根据所述深度特征和基于注意力机制的第二机器学习模型,获取所述文本图片中的文本的字体,包括:对所述文本图片的深度特征采用第一神经网络模型进行编码,得到编码序列;采用所述基于注意力机制的第二神经网络模型对所述编码序列进行解码,获取所述文本图片中的文本的字体。
在一种可能的设计中,采用所述基于注意力机制的第二神经网络模型对所述编码序列进行解码,获取所述文本图片中的文本的字体,包括:采用所述基于注意力机制的第二神经网络模型对所述编码序列进行解码,得到字体向量,字体向量中的每个分量与一种字体相对应;根据所述字体向量,获取所述文本图片中的文本的字体。
在一种可能的设计中,所述获取待识别的文本图片,包括:获取原始文本图片;将所述原始文本图片的高度缩放到预设高度,得到所述待识别的文本图片。
第二方面,本申请实施例提供一种字体识别装置,包括:获取模块,用于获取待识别的文本图片;处理模块,用于从多个预设尺度的滑动窗口中选取至少一个预设尺度的滑动窗口;所述处理模块,还用于采用所述至少一个预设尺度的滑动窗口,对所述文本图片进行扫描,得到多个子文本图片;所述处理模块,还用于根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体。
在一种可能的设计中,所述处理模块在用于根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体时,所述处理模块具体用于:根据所述多个子文本图片和第一机器学习模型,得到所述文本图片的深度特征;根据所述深度特征和基于注意力机制的第二机器学习模型,获取所述文本图片中的文本的字体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910918983.X/2.html,转载请声明来源钻瓜专利网。