[发明专利]一种文字识别方法及系统有效
申请号: | 202210012962.3 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114092930B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 王金桥;陈盈盈;谭颖韬 | 申请(专利权)人: | 中科视语(北京)科技有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/14;G06V30/18;G06V30/19;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 吴刚 |
地址: | 102300 北京市门头沟区石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字 识别 方法 系统 | ||
1.一种文字识别方法,其特征在于,包括:
获取待识别的自然场景文字图像;
将所述自然场景文字图像输入到文字识别模型中,得到所述自然场景文字图像中的文字内容;
其中,所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的;所述视觉信息优化网络和所述语义信息优化网络,用于根据所述视觉识别网络输出的字符特征,分别生成对应的文字识别补充信息,以供所述视觉识别网络基于所述文字识别补充信息,对文字识别结果进行优化;
所述将所述自然场景文字图像输入到文字识别模型中,得到所述自然场景文字图像中的文字内容,包括:
步骤S1,通过所述视觉识别网络,对所述自然场景文字图像进行字符特征提取,得到所述自然场景文字图像中每个文字对应的视觉识别字符特征;
步骤S2,通过所述视觉信息优化网络,提取每个所述视觉识别字符特征之间的上下文信息,得到文字识别第一补充信息;
步骤S3,将所述视觉识别字符特征转化至预设语言空间,得到对应的字符语义特征;
步骤S4,通过所述语义信息优化网络,对所述字符语义特征进行上下文信息提取,得到全局感知语言特征,并将所述全局感知语言特征与所述视觉识别字符特征进行融合,得到文字识别第二补充信息;
步骤S5,将所述文字识别第一补充信息和所述文字识别第二补充信息,输入到所述视觉识别网络中,以供所述视觉识别网络结合所述文字识别第一补充信息和所述文字识别第二补充信息,对所述自然场景文字图像进行字符特征提取,得到信息补充后的视觉识别字符特征,重复步骤S2至步骤S5,直到满足预设识别条件,得到所述文字识别模型输出的所述自然场景文字图像中的文字内容。
2.根据权利要求1所述的文字识别方法,其特征在于,所述通过所述视觉信息优化网络,提取每个所述视觉识别字符特征之间的上下文信息,得到文字识别第一补充信息,包括:
获取每个视觉识别字符特征对应的识别准确率;
根据所述识别准确率,确定所述视觉识别字符特征中每个字符的掩码概率;
将所述视觉识别字符特征、所述掩码概率和所述视觉识别字符特征对应的空间位置,输入到所述视觉信息优化网络中,以供所述视觉信息优化网络识提取上下文信息,得到文字识别第一补充信息。
3.根据权利要求1所述的文字识别方法,其特征在于,所述视觉识别网络的编码器是通过卷积神经网络和Transformer网络构建得到的。
4.根据权利要求1所述的文字识别方法,其特征在于,所述视觉识别网络的解码器是通过并行注意力机制模型构建得到的。
5.根据权利要求1所述的文字识别方法,其特征在于,所述视觉信息优化网络是由2层Transformer网络构成的;所述语义信息优化网络是由4层Transformer网络构成的。
6.根据权利要求1至5任一项所述的文字识别方法,其特征在于,所述文字识别模型通过以下步骤训练得到:
步骤S11,将文字识别数据集中的样本文字图像输入到预训练视觉识别网络进行训练,得到由所述预训练视觉识别网络输出的样本文字图像中每个文字的视觉识别字符样本特征,其中,所述预训练视觉识别网络中解码器的查询向量为可调整向量;
步骤S12,将所述视觉识别字符样本特征输入到预训练视觉信息优化网络进行训练,得到由每个所述视觉识别字符样本特征之间的上下文信息构建的文字识别第一补充样本信息;
步骤S13,通过嵌入操作,将所述视觉识别字符样本特征转化至预设样本语言空间,并将转化后的视觉识别字符样本特征输入到预训练语义信息优化网络进行训练,得到由样本语言特征构建的文字识别第二补充样本信息,其中,所述样本语言特征是在所述预设样本语言空间中进行上下文信息提取得到的;
步骤S14,根据所述文字识别第一补充样本信息和所述文字识别第二补充样本信息,对所述预训练视觉识别网络中解码器的查询向量进行更新,以供所述预训练视觉识别网络根据新的查询向量,联合所述预训练视觉信息优化网络和所述预训练语义信息优化网络,重复步骤S11至步骤S14进行下一轮训练,直到满足预设训练条件,得到文字识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科视语(北京)科技有限公司,未经中科视语(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210012962.3/1.html,转载请声明来源钻瓜专利网。