[发明专利]生僻字处理方法、计算设备及计算机存储介质有效

申请号：	201810659246.8	申请日：	2018-06-25
公开（公告）号：	CN108846367B	公开（公告）日：	2019-08-30
发明（设计）人：	张恒;李铭瀚;于刚	申请（专利权）人：	掌阅科技股份有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	北京市浩天知识产权代理事务所(普通合伙) 11276	代理人：	宋菲;刘云贵
地址：	100124 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种生僻字处理方法、计算设备及计算机存储介质，其中，方法包括：对文档的文本对象进行识别，确定待识别生僻字区域，获取待识别生僻字区域内的待识别生僻字信息；根据相似度匹配规则，判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息；若是，则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。本发明方案，针对相同的生僻字，仅需保存唯一一份识别结果，以及，在显示待识别生僻字的场景中，直接用相同的已识别生僻字的识别结果作为待识别生僻字区域的识别结果，避免了大量重复的识别结果的存储，进而减小了书籍文件的大小。
搜索关键词：	生僻字计算机存储介质计算设备文档相似度匹配书籍文件文本对象信息对应信息匹配减小存储保存场景重复
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种生僻字处理方法，包括：对文档的文本对象进行识别，确定待识别生僻字区域，获取待识别生僻字区域内的待识别生僻字信息；其中，生僻字信息至少包括生僻字路径线信息；其中，按照统一的编号规则，对每个生僻字的多条路径线进行编号；比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等；若待识别生僻字路径线的数量与已识别生僻字路径线的数量相等，则计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和已识别生僻字路径线的端点坐标的坐标差；根据所述坐标差判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配；若是，则文档的已识别结果中存在与待识别生僻字路径线信息匹配的已识别生僻字路径线信息，将已识别生僻字路径线信息对应的识别结果作为所述待识别生僻字区域的识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司，未经掌阅科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810659246.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]生僻字处理方法、计算设备及计算机存储介质有效

专利文献下载