[发明专利]一种公式识别方法及装置在审
申请号: | 202110322524.2 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113033538A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 王杰;王英俊;秦波;辛晓哲 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 储倩 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公式 识别 方法 装置 | ||
本申请公开了一种公式识别方法,在一个示例中,该方法可以由第一设备执行。第一设备可以获取包括公式的待识别图像,而后,对所述待识别图像进行处理,得到全局图像特征和局部图像特征。进一步地,可以对所述全局图像特征和所述局部图像特征进行处理,得到所述待识别图像中包括的公式。由此可见,在本申请实施例中,识别待识别图像中的公式时,结合了待识别图像的局部图像特征,因此,即使所述待识别图像中公式所包括的字符比较小,利用本申请实施例的方案,也能准确的识别出待识别图像中的公式。因此,利用本方案,能够准确的识别出待识别图像中的公式。
技术领域
本申请涉及数据处理领域,特别是涉及一种公式识别方法及装置。
背景技术
在一些场景中,需要识别图像中的公式。目前所使用的识别公式的方法,并不能够准确的识别出图像中的公式,因此,急需一种方案,能够解决该问题。
发明内容
本申请所要解决的技术问题是如何准确的识别出图像中的公式,提供一种公式识别方法及装置。
第一方面,本申请实施例提供了一种公式识别方法,所述方法包括:
获取包括公式的待识别图像;
对所述待识别图像进行处理,得到全局图像特征和局部图像特征;
对所述全局图像特征和所述局部图像特征进行处理,得到所述待识别图像中包括的公式。
可选的,所述对所述待识别图像进行处理,得到全局图像特征和局部图像特征包括:
利用卷积神经网络的M个卷积层和N个池化层对所述待识别图像进行处理,得到所述全局图像特征;M和N均为大于或者等于1的整数;
所述M个卷积层和所述N个池化层中的部分池化层对所述待识别图像进行处理,得到所述局部图像特征。
可选的,所述卷积神经网络为:DenseNet。
可选的,所述对所述全局图像特征和所述局部图像特征进行处理,得到所述待识别图像中包括的公式通过解码器实现,所述解码器包括:第一门循环单元GRU层和第二GRU层,其中:
在第一解码时刻:
所述第一GRU层的输入包括:所述全局图像特征、所述局部图像特征、以及所述第一GRU层在第二解码时刻得到的隐藏向量,所述第二解码时刻为所述第一解码时刻的上一解码时刻,所述第一GRU层在第二解码时刻得到的隐藏向量,能够指示所述第一解码时刻所述全局图像特征和所述局部图像特征中未被解码的内容;所述第二GRU层的输入包括:所述全局图像特征和所述局部图像特征以及所述第一GRU层在所述第一解码时刻输出的隐藏向量;
所述解码器的输出为所述第二GRU层在最后一个解码时刻得到的解码结果。
可选的,在第一解码时刻,所述第二GRU层的输入还包括:
所述第二GRU层在所述第二解码时刻得到的隐藏向量,其中,所述第二GRU层在所述第二解码时刻得到的隐藏向量,能够指示在所述第一解码时刻所述全局图像特征和所述局部图像特征中未被解码的内容。
可选的,所述解码器为Transformer模型中的解码器。
可选的,所述获取包括公式的待识别图像,包括:
获取包括公式的原始图像,去除所述原始图像中的冗余信息和/或噪声干扰,得到所述待识别图像。
可选的,所述方法还包括:
获取包括公式的训练图像;
利用所述训练图像和所述训练图像的标注信息,训练得到公式识别模型,其中,所述训练图像的标注信息,用于指示所述训练图像中包括的公式,所述公式识别模型,用于识别所述待识别图像中的公式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322524.2/2.html,转载请声明来源钻瓜专利网。