[发明专利]一种智能无透镜文字识别系统在审
申请号: | 202210246740.8 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114596571A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 张颖而;皇甫江涛 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/162;G06V30/146;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 透镜 文字 识别 系统 | ||
本发明公开了一种智能无透镜文字识别系统。包括光学模块和计算成像及智能文字定位识别模块,光学模块由可调制幅度掩膜板和传感器组成,其中掩膜板的透射光幅度分布被建模为二维卷积层,可作为参数被优化;计算成像及文字定位识别模块包含计算成像模型、文字定位模型和文字识别模型,输入数据为经过光学模块后在传感器上得到的原始数据,输出为预测的文字的文本形式,同时通过结果反馈来优化光学模块中的掩膜版透光幅度分布以及计算成像网络参数。本发明实现了软硬件一体化的无透镜成像和文字识别的深度学习模型优化,提高了在无透镜下的文字定位和文字识别的准确率,且该系统的每个模块具有通用性和普适性,具有很强的实际应用性。
技术领域
本发明属于无透镜成像领域,具体涉及一种智能无透镜文字识别系统。
背景技术
随着视觉任务的快速发展和应用,相机被集成在各种硬件设备上。某些应用场景对相机尺寸有严格的要求,无透镜相机是一种使用薄掩膜版替代镜头的成像系统,因此可以大大减小相机尺寸。
和带镜头的相机相比,无透镜相机需要对传感器上收集的数据进行计算成像才能恢复图像,但是基于无透镜重建的图像存在模糊、分辨率的缺点,导致无法胜任很多视觉任务,目前尚未有对基于无透镜的非单个字符文字检测和识别的研究。
因此,需要一套无透镜文字识别系统。
发明内容
针对目前无透镜成像技术由于较差的成像质量而未应用于非单个字母的文字定位和识别的情况,本发明提供了一种基于无透镜的文字定位和识别系统。识别准确率高且该系统方法具有通用性。
本发明采用的技术方案如下:
本发明的智能无透镜文字识别系统包括光学模块和计算成像及文字定位识别模块,光学模块主要由平行放置的可调制幅度掩膜板和光学传感器组成,待识别目标放置于光学模块前方,待识别目标发出的光线经可调制幅度掩膜板散射后,在光学传感器的平面上投射形成投影图像(原始数据),光学传感器将投影图像传输至计算成像及文字定位识别模块;
计算成像及文字识别模块包括计算成像模型、文字定位模型和文字识别模型,三个模型串行连接;计算成像及文字识别模块的输入为经光学模块后在传感器上得到的投影图像,输出为投影图像上文字的文本形式。
所述的可调制幅度掩膜板为由k*k个单元格组成的二值化掩膜版,每个单元格的值为1或0,1表示光线能通过,0表示光线不能通过。
投影图像经计算成像模型输出预测的重建图像;文字定位模型对输入的重建图像进行处理,输出图像中文字的位置;将文字定位模型的输出结果输入文字识别模型后,输出图像的文字识别结果;
计算成像及文字识别模块训练过程中,仅计算成像模型参与训练,需更新参数,文字定位模型和文字识别模型不参与训练。
计算成像模型为编码器-解码器体系的神经网络,具体采用U-NET;文字定位模型采用任意文字定位模型结构,具体采用CTPN;文字识别模型采用任意文字识别模型结构,具体采用CRNN。
可调制幅度掩膜板上的图案通过液晶显示器显示,掩模版上的图案随机生成或通过训练优化后确定;通过训练优化后确定掩模版图案的方法包括以下步骤:
1)将待识别目标与光学模块的成像过程建模为二维卷积层,具体为:
m=w*o
其中,w表示掩模版上的幅度分布,即掩模版上单元格的值分布;以掩模版中心点为原点构建坐标系,(i,j)为掩膜板上单元格中心点的坐标,wi,j表示掩膜板上坐标为(i,j)的单元格的值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210246740.8/2.html,转载请声明来源钻瓜专利网。