[发明专利]一种图片中文字的识别方法、装置、设备及存储介质在审
申请号: | 201810373537.0 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108805115A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 王昌龙;马鑫 | 申请(专利权)人: | 五八同城信息技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/46;G06K9/62 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 于金平 |
地址: | 300450 天津市滨海新区经济技术开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 黑白图片 文字图片 图片 切割 中文字 匹配 字典 存储介质 图片调整 干扰因素 图片分析 图片文字 成功率 分析 | ||
本发明提供了一种图片中文字的识别方法、装置、设备及存储介质,其中图片中文字的识别方法包括:将图片调整为黑白图片;对黑白图片中的文字进行切割,得到切割后的文字图片;将各文字图片分别与图片字典中的图片进行匹配;根据匹配到的图片字典中的图片,识别出文字图片中的文字。本发明的技术方案通过将图片调整为黑白图片,将黑白图片中的文字进行切割,并将切割后的文字图片与图片字典中的图片进行匹配,减少了图片分析中的干扰因素,提高了图片中文字的识别成功率;而且通过对黑白图片中的文字进行切割,减少了对图片的整图进行分析,提高了图片文字的识别效率。
技术领域
本发明涉及信息安全领域,特别涉及一种图片中文字的识别方法、装置、设备及存储介质。
背景技术
互联网的发展使得信息的传播速度和规模达到了空前的水平,但是随之而来的是信息安全问题。一些违法分子会通过网络传播违法信息,如何有效阻止这类信息在网络的传播是每个公司的责任与义务。
网络传输交换的信息除文字内容外,还包括图片内容,所以网络内容的过滤除了对文字内容的合法性过滤,还包括对图片内容的合法性检验。但是如何对图片内容分析是一个技术难点,文字有全球统一标准的“文字库”,而图片则是复杂和多样的,所以图片内容分析不像文字内容分析那样简单。
百度云图像智能应用提供了自然场景下整图文字检测、定位、识别等功能,具体的,在百度云图像智能应用中,将文字标准库转化成图片库,对原图进行整图横向垂直对比,通过图片库在需要分析的整图中进行正向对比,重叠视为相同的文字。然而,上述识别方式存在如下问题:对于图片中不规则排序文字、扭曲字体等的识别成功率偏低。
所以,如何提高图片中文字的识别效率和/或识别成功率,成为目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种解决上述问题的图片中文字的识别方法、装置、设备及存储介质。
依据本发明实施例的一个方面,提供了一种图片中文字的识别方法,包括:
将图片调整为黑白图片;
对所述黑白图片中的文字进行切割,得到切割后的文字图片;
将各所述文字图片分别与图片字典中的图片进行匹配;
根据匹配到的所述图片字典中的图片,识别出所述文字图片中的文字。
可选的,在本发明实施例所述的图片文字识别方法中,所述将各所述文字图片分别与图片字典中的图片进行匹配,包括:
将所述文字图片按照所述图片字典中待匹配图片进行比例转换;
将转换后的文字图片与所述图片字典中待匹配的图片,在同一坐标位置的红绿蓝RGB值进行对比;
当所述转换后的文字图片与所述待匹配的图片在所有坐标位置的RGB值均相同时,确定所述文字图片与所述待匹配的图片相匹配。
可选的,在本发明实施例所述的图片文字识别方法中,还包括:
当所述文字图片与所述待匹配的图片不匹配时,将转换后的文字图片中每个坐标位置的RGB值,与所述图片字典中待匹配图片在对应坐标位置的预设偏移范围内的各坐标的RGB值进行对比;
当所述文字图片中每个坐标位置的RGB值在对应坐标位置的预设偏移范围内均具有相同的RGB值时,确定所述文字图片与所述待匹配的图片相匹配。
可选的,在本发明实施例所述的图片文字识别方法中,在将图片调整为黑白图片之前,还包括:清除所述图片的边框。
可选的,在本发明实施例所述的图片文字识别方法中,所述清除所述图片的边框包括:
计算所述图片的边框所占的横纵行数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五八同城信息技术有限公司,未经五八同城信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810373537.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种商标线条特征对比方法及装置
- 下一篇:图像文本检测方法及其系统