[发明专利]用于识别文字的方法及相关产品在审
申请号: | 202211714145.9 | 申请日: | 2022-12-29 |
公开(公告)号: | CN116386057A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 宋凯强;许彬;林辉;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06N3/0455;G06N3/0464;G06N3/047;G06N3/08 |
代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 杜丹丹 |
地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 文字 方法 相关 产品 | ||
1.一种用于识别文字的方法,其特征在于,包括:
获取待识别的单行文本图像,其中所述单行文本图像中包括一种或多种语种文字;以及
基于推理阶段的文字识别模型对所述单行文本图像进行处理,其中训练阶段和推理阶段的文字识别模型采用不同的网络结构,且推理阶段的文字识别模型是经由训练阶段训练好的文字识别模型轻量化处理得到的;以及
基于所述推理阶段的文本识别模型的输出,确定所述单行文本图像中所有语种文字的识别结果。
2.根据权利要求1所述的方法,其特征在于,其中训练阶段的文字识别模型为多任务学习框架,且包括用于提取图像文字特征的图像文字特征编码器、用于预测文本序列字符概率的第一解码器、辅助所述第一解码器学习的第二解码器和/或预测字符数量的文字计数模型。
3.根据权利要求2所述的方法,其特征在于,其中所述第一解码器包括由全连接层构成的第一连接时序分类CTC解码器,所述第二解码器包括作为时序模型的第二连接时序分类CTC解码器,所述文字识别模型是经由以下操作进行训练的:
基于所述图像文字特征编码器从训练样本中提取出图像文字特征;
将所述图像文字特征转换为文本序列特征;
利用所述第一CTC解码器和所述第二CTC解码器分别对所述文本序列特征进行预测,和/或利用所述文字计数模型对所述图像文字特征进行预测;
根据所述第一CTC解码器、所述第二CTC解码器的预测结果和/或所述文字计数模型的预测结果确定所述文字识别模型的损失;以及
基于所述文字识别模型的损失对所述文字识别模型的模型参数进行迭代优化,直至所述文字识别模型训练收敛。
4.根据权利要求3所述的方法,其特征在于,其中,所述第一CTC解码器的预测结果包括第一预测文本序列字符概率分布,所述第二CTC解码器的预测结果包括第二预测文本序列字符概率分布,所述文字计数模块的预测结果包括预测字符数量概率分布,根据所述第一CTC解码器、所述第二CTC解码器的预测结果和所述文字计数模型的预测结果确定所述文字识别模型的损失包括:
计算所述第一预测文本序列字符概率分布、所述第二预测文本序列字符概率分布分别与真实文本行标签序列之间的损失,以得到第一CTC损失和第二CTC损失;
计算所述第一预测文本序列字符概率分布与所述第二预测文本序列字符概率分布之间的KL散度损失;
计算所述预测字符数量概率分布与真实字符数量之间的交叉熵损失;以及
基于所述第一CTC损失、所述第二CTC损失、所述KL散度损失和所述交叉熵损失确定所述文字识别模型的损失。
5.根据权利要求3所述的方法,其特征在于,基于所述第一CTC损失、所述第二CTC损失、所述KL散度损失和所述交叉熵损失确定所述文字识别模型的损失包括:
对所述第一CTC损失、所述第二CTC损失、所述KL散度损失和所述交叉熵损失进行加权求和,并确定加权求和结果为所述文字识别模型的损失。
6.根据权利要求2至5中任一项所述的方法,其特征在于,基于所述推理阶段的文字识别模型对所述单行文本图像进行处理包括:
将训练好的文字识别模型进行裁剪和量化处理,以得到所述推理阶段的文字识别模型;以及
将所述推理阶段的文字识别模型以离线方式部署在电子设备中,以执行对所述单行文本图像的处理。
7.根据权利要求6所述的方法,其特征在于,基于所述推理阶段的文本识别模型的输出,确定所述单行文本图像中所有语种文字的识别结果包括:
从所述推理阶段的文本识别模型输出的文本序列概率分布中,提取出每个字符的最大预测概率类别标识;以及
基于预定义的字符标识与文字之间的映射关系,获取每个字符的最大预测概率类别标识对应的文字。
8.根据权利要求6所述的方法,其特征在于,推理阶段的文字识别模型包括所述图像文字特征编码器和所述第一解码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211714145.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:可扩张管腔内装置
- 下一篇:一种抽屉式便携工具车