[发明专利]文字识别方法、电子设备、存储介质有效
申请号: | 201810884966.4 | 申请日: | 2018-08-06 |
公开(公告)号: | CN109101973B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 张恒;李铭瀚;于刚;方建华 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62 |
代理公司: | 11276 北京市浩天知识产权代理事务所(普通合伙) | 代理人: | 宋菲;赵娅 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 线段数据 预设 笔画信息 文字识别 存储介质 电子设备 数据库 重合度 比对 计算数据 曲线信息 数据信息 图片文字 文字转化 直线信息 数据集 直观 查找 图片 | ||
本发明公开了一种文字识别方法、电子设备、存储介质,其方法包括:获取包含第一文字的图片;提取图片中第一文字的笔画信息;根据笔画信息,获取第一文字的线段数据集;将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。提取第一文字的笔画信息,将图片文字拆分为具体的直线信息或曲线信息,得到第一文字具体的线段数据集,实现将文字转化为数据集。通过将第一文字的线段数据集与预设数据库中的线段数据集比对,计算数据集间的重合度,直观的根据数据信息,得到的第一文字的识别结果更加准确,提高文字识别率。
技术领域
本发明涉及电子书领域,具体涉及一种文字识别方法、电子设备、存储介质。
背景技术
电子书与纸质书籍相比,更方便用户随时随地阅读,且可以减轻用户携带纸质书籍的重量。电子书可以通过扫描纸质书籍等方式进行制作,如扫描纸质书籍得到的图片,根据图片制作电子书。但直接根据图片制作电子书,不能对图片中的内容进行编辑、排版、校对等处理,得到的电子书质量较差,影响用户阅读体验效果。因此,在制作电子书时,还需要对图片中包含的文字等内容进行识别,以便更好的对其进行编辑、排版、校对等处理,方便制作得到的电子书显示效果更佳,更符合用户的阅读习惯。因此,需要一种对图片中包含的文字进行识别的方法,以便可以准确地识别出文字,进而对文字进行编辑、排版、校对等处理,制作出显示效果更佳的电子书。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文字识别方法、电子设备、存储介质。
根据本发明的一个方面,提供了一种文字识别方法,其包括:
获取包含第一文字的图片;
提取图片中第一文字的笔画信息,笔画信息包含直线信息和/或曲线信息;
根据笔画信息,获取第一文字的线段数据集;
将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
获取包含第一文字的图片;
提取图片中第一文字的笔画信息,笔画信息包含直线信息和/或曲线信息;
根据笔画信息,获取第一文字的线段数据集;
将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:
获取包含第一文字的图片;
提取图片中第一文字的笔画信息,笔画信息包含直线信息和/或曲线信息;
根据笔画信息,获取第一文字的线段数据集;
将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810884966.4/2.html,转载请声明来源钻瓜专利网。