[发明专利]文本识别方法、装置、计算机设备和存储介质在审
申请号: | 201911413616.0 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111178358A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 周康明;冯晓锐 | 申请(专利权)人: | 上海眼控科技股份有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种文本识别方法、装置、计算机设备和存储介质。该方法包括:利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量;将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征;该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息;将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;将提取特征输入至分类网络,确定文本内容的类别。采用本方法能够提高文本类别识别的准确性。
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本识别方法、装置、计算机设备和存储介质。
背景技术
在日常工作学习过程中,当查阅文档时,难免会遇到一些无法复制的网页文字或者PDF(Portable Document Format,可移植文档格式)文件,这时候如果需要该文档的可编辑版本,那么就会采用文字识别软件来对该网页或PDF上的文本进行识别,以得到其上的文本。
目前文本识别常用的方法主要由文本定位和文本识别组成,首先将文本图像输入定位网络,得到文本定位结果和文本分类结果,之后将得到的文本定位结果送入识别网络,利用输入图像的文本信息进行识别,当待识别的表单中出现相近的目标时,例如,表单中存在多种日期时(开始日期、结束日期、当前日期),在定位网络处理时,得到的文本分类结果可能会造成误分类,再者不同表单中的文本格式也存在差别,这又增加了分类的难度,因此最终根据识别网络的识别结果,无法正确定位哪个是当前日期。
可见,上述方法存在识别的文本类别不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高识别文本类别的文本识别方法、装置、计算机设备和存储介质。
一种文本识别方法,该方法包括:
利用目标检测算法对获取的文本图像进行检测,得到各个文本框图像;
将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换,得到文本框图像中文本的词向量;
将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征;该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息;
将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取,得到提取特征;
将提取特征输入至分类网络,确定文本内容的类别。
在其中一个实施例中,上述将文本框图像输入至预设的第二神经网络中进行特征提取,得到文本框图像对应的融合特征,包括:
根据文本内容以及文本内容的空间分布信息,将文本框图像转化成文本框图像的节点图;该文本框图像的节点图包括节点和边线,节点包括文本内容,边线表征文本内容的空间分布信息;
将文本框图像的节点图输入至第二神经网络中进行特征提取,得到文本框图像对应的融合特征。
在其中一个实施例中,上述将文本框图像的节点图输入至第二神经网络中进行特征提取,得到文本框图像对应的融合特征,包括:
将节点和边线进行拼接,并将拼接后的信息输入至多层感知机网络中进行特征提取,得到文本框的中间特征;
根据文本框的中间特征和预设的注意力系数,得到文本框图像的融合特征。
在其中一个实施例中,上述分类网络为条件随机场网络。
在其中一个实施例中,上述第一长短期记忆网络为双向长短期记忆网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海眼控科技股份有限公司,未经上海眼控科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911413616.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应急决策指挥系统及方法
- 下一篇:一种监控服务器集群的网卡的方法和设备