[发明专利]结构化文本检测方法和系统有效

申请号：	201610561355.7	申请日：	2016-07-15
公开（公告）号：	CN106295629B	公开（公告）日：	2018-06-15
发明（设计）人：	向东来;夏炎	申请（专利权）人：	北京市商汤科技开发有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/32
代理公司：	北京金阙华进专利事务所(普通合伙) 11224	代理人：	陈建春
地址：	100084 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了结构化文本检测方法和系统，其中所述方法包括：将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。本发明在保证检测准确度的同时使得计算量尽可能小，大大提高了结构化文本检测的效率。 1
搜索关键词：	结构化文本检测文字区域卷积神经网络待检测区域图片实际位置准确度计算量申请保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种结构化文本检测方法，其特征在于，所述方法包括：

对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸；

将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；

通过所述卷积神经网络的处理，得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值，并基于所述位置调整值调整相应待检测区域的坐标值，得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，

所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及

所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络进行如下处理以得到所述待检测结构化文本图片的一组待检测区域的实际位置：

对所述待检测结构化文本图片进行处理获得其卷积特征图；

以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；

根据所述分类分数确定所述每一待检测区域是否有文字；

在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到该确定有文字的待检测区域的实际位置。

3.根据权利要求1所述的方法，其特征在于，所述将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络之前，所述方法还包括：

获取用于训练所述卷积神经网络的所述多个结构化文本图片中的每一图片的所有文字区域的位置；

根据所述多个结构化文本图片中的相应文字区域的位置的平均值确定所述文字区域对应的文字区域模板。

4.根据权利要求2所述的方法，其特征在于，所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。

5.根据权利要求2所述的方法，其特征在于，所述根据所述分类分数确定所述每一待检测区域是否有文字包括：

将每一待检测区域对应的分类分数接Softmax层；

在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。

6.根据权利要求4所述的方法，其特征在于，所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，

其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标，exp(f3)*w为所述待检测区域的长度，exp(f4)*h为所述待检测区域的宽度；

其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度；[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标，其中[f1,f2,f3,f4]＝[(x'‑x)/w,(y'‑y)/h,log(w'/w),log(h'/h)]，其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。

7.根据权利要求6所述的方法，其特征在于，所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。

8.一种结构化文本检测系统，其特征在于，所述系统包括：

图片预处理模块，用于对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸；

图片及模板输入模块，用于将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络；

卷积神经网络，用于通过所述卷积神经网络的处理，得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值，并基于所述位置调整值调整相应待检测区域的坐标值，得到所述待检测结构化文本图片的一组待检测区域的实际位置；其中，

所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值；及

所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。

9.根据权利要求8所述的系统，其特征在于，所述卷积神经网络包括：

特征图获得模块，用于对所述待检测结构化文本图片进行处理获得其卷积特征图；

分类分数和位置调整值获得模块，用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作，然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值；

文字区域确定模块，用于根据所述分类分数确定所述每一待检测区域是否有文字；

待检测区域实际位置确定模块，用于在确定一待检测区域有文字时，根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值，得到该确定有文字的待检测区域的实际位置。

10.根据权利要求8所述的系统，其特征在于，其中所述一组文字区域模板根据所述多个结构化文本图片中的每一图片的相应文字区域的位置的平均值确定。

11.根据权利要求9所述的系统，其特征在于，所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。

12.根据权利要求9所述的系统，其特征在于，所述文字区域确定模块包括：

将每一待检测区域对应的分类分数接Softmax层；

在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。

13.根据权利要求11所述的系统，其特征在于，所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，

其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标，exp(f3)*w为所述待检测区域的长度，exp(f4)*h为所述待检测区域的宽度；

14.根据权利要求13所述的系统，其特征在于，所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。

15.一种结构化文本检测系统，其特征在于，所述系统包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司，未经北京市商汤科技开发有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610561355.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]结构化文本检测方法和系统有效

专利文献下载