[发明专利]一种字符识别方法、装置及存储介质在审
| 申请号: | 202010864604.6 | 申请日: | 2020-08-25 |
| 公开(公告)号: | CN112115933A | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 刘滨;旷黎明;林大 | 申请(专利权)人: | 上海微亿智造科技有限公司;常州微亿智造科技有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20 |
| 代理公司: | 上海塔科专利代理事务所(普通合伙) 31380 | 代理人: | 耿恩华 |
| 地址: | 201100 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 字符 识别 方法 装置 存储 介质 | ||
本发明公开了一种字符识别方法,所述方法包括:获取目标字符,并组建至少一个目标字符库;基于每一个目标字符库和预设数据处理结构,构造每一个目标字符库的目标数据结构;获取待处理字符;根据微服务与所述目标数据结构的调用关系,对所述待处理字符进行识别,并获取识别结果,旨在保证工业物联网领域中大数据的采集做到规范合法、节省内存空间且高效的QPS,本发明采用Be‑Tree的算法搭建起来微服务,可以有效防范对网站的XSS攻击和非法字符的录入,同时避免了现有的工业场景下微服务架构中每个微服务都要加载海量词库,从而节省大量的内存空和提升服务的可用性。
技术领域
本发明涉及工业互联网的字符处理技术领域,尤其涉及一种加字符识别方法、装置及存储介质。
背景技术
工业互联网是全球工业系统与高级计算、分析、感应技术以及互联网连接融合的一种结果。可以是通过开放的、全球化的工业级网络平台把设备、生产线、工厂、供应商、产品和客户紧密地连接和融合起来,高效共享工业经济中的各种要素资源,帮助制造业延长产业链。而在各种要素资源中有可能存在非法字符,所谓的非法字符可以是测试数据中需要进行识别的字符,以避免测试数据出现问题,或者及时识别测试过程中出现的问题。
目前,常用的字符识别算法是将字符打包成传统的打包形式,例如jar包的形式,因为这么做会导致每个需要进行非法字符过滤的服务,都要加载非法字符的词库,比如有10个服务集成了该jar包,如果非法词库的容量是1G,这样就有9G内存的浪费,可见现有技术中的非法字符过滤方式会导致内存被占用,而且降低过滤效率。
发明内容
本发明的目的在于提供一种字符识别方法、装置及存储介质,旨在保证工业物联网领域中大数据的采集做到规范合法、节省内存空间且高效的QPS,本发明采用Be-Tree的算法搭建起来微服务,可以有效防范对网站的XSS攻击和非法字符的录入;避免了现有的工业场景下微服务架构中每个微服务都要加载海量词库,从而节省大量的内存空和提升服务的可用性。
为了实现上述目的,提供了一种字符识别方法,所述方法包括:
获取目标字符,并组建至少一个目标字符库;
基于每一个目标字符库和预设数据处理结构,构造每一个目标字符库的目标数据结构;
获取待处理字符;
根据微服务与所述目标数据结构的调用关系,对所述待处理字符进行识别,并获取识别结果。
一种实现方式中,所述获取目标字符,并组建至少一个目标字符库的步骤包括:
获取非法字符,其中,所述非法字符为预先设定的字符;
将所述非法字符确定为目标字符;
将所述目标字符组成目标字符库;
将所述目标词库对应的数据加载到数据处理的内存中。
一种实现方式中,所述基于每一个目标字符库和预设数据处理结构,构造每一个目标字符库的目标数据结构的步骤,包括:
确定预设数据处理结构为Be_Tree数据结构;
根据所述Be_Tree数据结构,将每一个目标字符库构造成树形数据结构。
一种实现方式中,所述根据微服务与所述目标数据结构的调用关系,对所述待处理字符进行识别,并获取识别结果的步骤,包括:
基于所述数据处理的内存调取所述树形数据结构;
对所述待处理字符进行过滤,获取字符过滤结果;
判断所述字符过滤结果中是否包含与所述待处理字符相同的字符;
如果是,则确认所述待处理字符包含非法字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海微亿智造科技有限公司;常州微亿智造科技有限公司,未经上海微亿智造科技有限公司;常州微亿智造科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010864604.6/2.html,转载请声明来源钻瓜专利网。





