[发明专利]文字识别方法及装置有效

申请号：	201711332707.2	申请日：	2017-12-13
公开（公告）号：	CN108021918B	公开（公告）日：	2021-11-30
发明（设计）人：	张水发	申请（专利权）人：	北京小米移动软件有限公司
主分类号：	G06K9/34	分类号：	G06K9/34
代理公司：	北京尚伦律师事务所 11477	代理人：	代治国
地址：	100085 北京市海淀区清河***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开是关于文字识别方法及装置。该方法包括：获取字块序列，字块序列中包括多个字块；根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率；根据至少一个文字和预设散列表，将字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合；其中，文字组合包括对应子序列的每个字块所对应的一个文字；根据每个子序列对应的至少一个文字组合和每个文字的识别概率，确定字块序列的文字。该技术方案在识别出每个字块对应的文字之后，在对字块序列按照语义分割，最终结果是根据语义对单独字块识别出的文字进行再一次进行语义识别得到的，这样，即使字形相近，也可以通过语义区分，提高了文字识别的准确性。

技术领域

本公开涉及图像识别领域，尤其涉及文字识别方法及装置。

背景技术

随着科技的发展，图像识别的应用范围越来越广，文字识别作为图像识别的一个部分，其使用范围也越来越广。文字识别可以逐字识别每个文字，但是在识别过程中，每个文字都有与自己非常相似的文字，例如，人和入，这样，检测效果不准确。

发明内容

本公开实施例提供文字识别方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种文字识别方法，包括：

获取字块序列，所述字块序列中包括多个字块；

根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率；

根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合；其中，所述文字组合包括对应子序列的每个字块所对应的一个文字，所述预设散列表包括文字的各个词组；

根据所述每个子序列对应的至少一个文字组合和所述每个文字的识别概率，确定所述字块序列的文字。

在一个实施例中，所述根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合包括：