[发明专利]基于空间变换网络端到端印刷体蒙古文识别翻译的方法有效
申请号: | 202011290754.7 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112329760B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 苏依拉;崔少东;程永坤;仁庆道尔吉;李雷孝;石宝 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空间 变换 网络 端到端 印刷体 蒙古文 识别 翻译 方法 | ||
本发明一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法,从蒙古文字的特点出发,使用四阶段的文字识别网络对蒙古文进行识别,空间变换阶段使用空间变换网络对蒙古文字图片进行标准化,其次,综合上下文信息使用CBAM‑GRCNN提取文字特征,以及使用Mogrifier LSTM进行序列建模。在预测阶段,使用聚焦注意力机制解决注意力漂移问题,并结合GRU网络进行预测;在翻译过程中,采用Reformer模型,Reformer模型通过将传统的多头注意力机制改为基于局部敏感哈希的注意力机制,以及将传统残差网络替换为可逆残差网络,并对前馈网络进行分块,从而降低模型的时间与空间复杂度,缓解训练长序列数据内存不足、速度慢的问题。
技术领域
本发明属于光学字符识别(OCR)与机器翻译技术领域,特别涉及一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法。
背景技术
光学字符识别是利用计算机将图片中的文字提取为文本的一种技术,是解决图片转文字问题的最有效手段之一,机器翻译能够将一种语言转换为目标语言,是解决语言障碍的有效方式。随着深度学习的日渐发展,使用深度学习进行光学字符识别任务与机器翻译任务已成为主流,谷歌、百度、有道等针对光学字符识别与机器翻译进行了大量研究,并已开发出实用化的应用程序。
在端到端文字识别网络与序列到序列文字识别网络出现前,印刷体蒙古文识别网络多采用BP、CNN等网络进行文字识别,但传统蒙古语的词汇量巨大,日常使用的词汇可达数十万个。若使用分类器来对每个单词进行分类时不可能的,且不能识别词汇表以外的单词。为了解决上面所述的问题,目前主流方法是使用端到端的网络或者序列到序列的网络对文字进行识别,这两种网络将输入单词图像看作一个图像帧序列,而将输出单词视为一个字母序列。网络可以获得字母和字形之间的关系,先识别字母,然后将其组合成单词。2019年,Weiyuan Wang等人基于双向LSTM和CTC提出端到端的蒙古文印刷体识别。该项工作将蒙古文OCR转换为一个序列到序列的映射问题,无需对蒙古文单词进行切分,LSTM网络将输入图片编码为多维向量,CTC网络将LSTM网络的输出转换为识别结果。该模型可以解决蒙古文数据词汇量不足问题。
在翻译方面,谷歌研究人员提出Transformer模型,一种只使用注意力机制的机器翻译模型。该模型摒弃了传统的编码器-解码器模型必须结合RNN或者CNN的固有模式,使用完全基于注意力机制的方式,在主流语料上达到了不错的效果。
目前光学字符识别在主流语言方面已经发展成熟,且对扭曲变形的文字有着良好的识别率,但在小语种方面研究较少,尤其是数据库严重缺乏,识别翻译没有达到很好的效果。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法,使用空间变换网络对数据进行标准化,可以识别扭曲变形的蒙古文字,并可同步将识别出的蒙古文翻译为中文,同时更易于并行化,并且需要更少的时间进行训练。
为了实现上述目的,本发明采用的技术方案是:
一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法,包括:
文字识别,利用基于空间变换网络端到端的印刷体蒙古文识别网络实现,由空间变换、特征提取、序列建模、预测四个阶段组成,其中所述空间变换阶段是利用空间变换网络与薄板样条插值将倾斜扭曲的文本图像矫正,对蒙古文字图片进行标准化,为后续网络训练提供良好的输入;特征提取阶段由CBAM-GRCNN网络实现,负责提取图像中的文字特征,同时抑制不相关的特征,CBAM从空间上与通道上分别关注图像特征,GRCNN使用门结构控制RCL中的上下文信息,同时平衡前馈信息和循环信息;序列建模阶段由Mogrifier LSTM网络实现,负责捕获字符序列中的上下文信息,以便更好地预测每个字符,而不是独立进行预测;预测阶段由聚焦注意力网络与GRU实现,负责根据图像特征预测输出字符序列;
文字翻译,利用Reformer模型,将识别出的蒙古文翻译为汉语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011290754.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种外排管汇装置
- 下一篇:一种铝型材全自动卧式氧化电泳生产线