[发明专利]结构化文本检测方法和系统有效
申请号: | 201610561355.7 | 申请日: | 2016-07-15 |
公开(公告)号: | CN106295629B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 向东来;夏炎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32 |
代理公司: | 北京金阙华进专利事务所(普通合伙) 11224 | 代理人: | 陈建春 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了结构化文本检测方法和系统,其中所述方法包括:将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。本发明在保证检测准确度的同时使得计算量尽可能小,大大提高了结构化文本检测的效率。 1 | ||
搜索关键词: | 结构化文本 检测 文字区域 卷积神经网络 待检测区域 图片 实际位置 准确度 计算量 申请 保证 | ||
对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸;
将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;
通过所述卷积神经网络的处理,得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值,并基于所述位置调整值调整相应待检测区域的坐标值,得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,
所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及
所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络进行如下处理以得到所述待检测结构化文本图片的一组待检测区域的实际位置:对所述待检测结构化文本图片进行处理获得其卷积特征图;
以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;
根据所述分类分数确定所述每一待检测区域是否有文字;
在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到该确定有文字的待检测区域的实际位置。
3.根据权利要求1所述的方法,其特征在于,所述将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络之前,所述方法还包括:获取用于训练所述卷积神经网络的所述多个结构化文本图片中的每一图片的所有文字区域的位置;
根据所述多个结构化文本图片中的相应文字区域的位置的平均值确定所述文字区域对应的文字区域模板。
4.根据权利要求2所述的方法,其特征在于,所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。5.根据权利要求2所述的方法,其特征在于,所述根据所述分类分数确定所述每一待检测区域是否有文字包括:将每一待检测区域对应的分类分数接Softmax层;
在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。
6.根据权利要求4所述的方法,其特征在于,所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标,exp(f3)*w为所述待检测区域的长度,exp(f4)*h为所述待检测区域的宽度;
其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度;[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标,其中[f1,f2,f3,f4]=[(x'‑x)/w,(y'‑y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。
7.根据权利要求6所述的方法,其特征在于,所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。8.一种结构化文本检测系统,其特征在于,所述系统包括:图片预处理模块,用于对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸;
图片及模板输入模块,用于将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;
卷积神经网络,用于通过所述卷积神经网络的处理,得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值,并基于所述位置调整值调整相应待检测区域的坐标值,得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,
所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及
所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
9.根据权利要求8所述的系统,其特征在于,所述卷积神经网络包括:特征图获得模块,用于对所述待检测结构化文本图片进行处理获得其卷积特征图;
分类分数和位置调整值获得模块,用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;
文字区域确定模块,用于根据所述分类分数确定所述每一待检测区域是否有文字;
待检测区域实际位置确定模块,用于在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到该确定有文字的待检测区域的实际位置。
10.根据权利要求8所述的系统,其特征在于,其中所述一组文字区域模板根据所述多个结构化文本图片中的每一图片的相应文字区域的位置的平均值确定。11.根据权利要求9所述的系统,其特征在于,所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。12.根据权利要求9所述的系统,其特征在于,所述文字区域确定模块包括:将每一待检测区域对应的分类分数接Softmax层;
在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。
13.根据权利要求11所述的系统,其特征在于,所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标,exp(f3)*w为所述待检测区域的长度,exp(f4)*h为所述待检测区域的宽度;
其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度;[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标,其中[f1,f2,f3,f4]=[(x'‑x)/w,(y'‑y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。
14.根据权利要求13所述的系统,其特征在于,所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。15.一种结构化文本检测系统,其特征在于,所述系统包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610561355.7/,转载请声明来源钻瓜专利网。