[发明专利]一种文本识别方法及装置有效
申请号: | 201710337521.X | 申请日: | 2017-05-15 |
公开(公告)号: | CN108875743B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 王凯;毛仁歆 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/19;G06V30/16;G06F40/289;G06F16/31 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 吴绍群 |
地址: | 开曼群岛大开曼岛乔治镇医院*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 方法 装置 | ||
1.一种文本识别方法,包括:
对待识别文本进行分割,生成分割文本;
根据预先建立的标准文本库中存储的标准文本,对所述分割文本进行拼接处理,生成拼接文本;其中,所述标准文本库至少包括:倒排索引库及标准分词库;所述标准文本库中,至少存储有与部分或全部分割文本对应的标准文本集,所述标准文本集中包含至少一个标准文本;
确定所述拼接文本与对应的标准文本之间的匹配表征值;
根据所述匹配表征值,选定与所述拼接文本相匹配的标准文本,生成识别结果;
对所述分割文本进行拼接处理,具体包括:
按照多个分割文本的排列顺序,选定分割文本进行拼接;
其中,所述多个分割文本的排列顺序,与所述待识别文本中的文本排列顺序一致;
选定分割文本进行拼接,具体包括:
选定起始分割文本;
在所述倒排索引库中,查找与该起始分割文本对应的索引;
若查找到与该起始分割文本对应的索引,则确定所述索引对应的标准文本集,根据标准文本集中的标准文本进行拼接;
若未查找到与该起始分割文本对应的索引,选定后一个分割文本作为起始分割文本,并根据重新选定的起始分割文本进行拼接;
根据标准文本集中的标准文本进行拼接,具体包括:
选定排列在所述起始分割文本之后的相邻分割文本,进行累计拼接,生成拼接文本;
确定所述拼接文本与对应的标准文本集中的标准文本之间的差异表征值;
根据所述差异表征值,对所述拼接文本进行记录,并判断是否结束以选定的起始分割文本进行拼接;
若是,则筛选拼接文本,并重新选定起始分割文本;
否则,则选定排列在所述拼接文本之后的相邻分割文本,继续进行累计拼接。
2.如权利要求1所述的方法,
预先建立标准文本库,具体包括:
获取标准文本;
对所述标准文本进行分割处理生成标准分割文本;
将每一标准分割文本作为索引,统计包含或部分包含该索引的标准文本,形成标准文本集,并建立所述标准文本集与所述索引的对应关系,基于所述对应关系建立所述倒排索引库;
按照设定的分词语法,在所述标准分割文本中确定符合该分词语法的文本组合,基于所述文本组合建立所述标准分词库;
其中,所述设定的分词语法至少包括:二元语法、三元语法。
3.如权利要求1所述的方法,确定所述拼接文本与对应的标准文本集中的标准文本之间的差异表征值,具体包括:
根据所述拼接文本与对应的标准文本集中的标准文本之间的编辑距离,计算所述差异表征值。
4.如权利要求1所述的方法,对所述拼接文本进行记录,具体包括:
在所述拼接文本满足设定的记录条件时,对所述拼接文本进行记录;
其中,所述设定的记录条件,包括:拼接文本对应的差异表征值,小于当前的最小差异表征值以及设定的差异表征阈值。
5.如权利要求1所述的方法,判断是否结束以选定的起始分割文本进行拼接,具体包括:
当所述差异表征值不满足设定条件时,判定结束以选定的起始分割文本进行拼接;
当所述差异表征值满足设定条件时,判定继续以选定的起始分割文本进行拼接;
其中,所述设定条件包括:最小差异表征值不持续增加设定次数,以及
当前拼接文本所对应的最小差异表征值,不大于前一拼接文本所对应的最小差异表征值,或,当前所选定的分割文本与后一分割文本之间的文本组合,存在于标准分词库中。
6.如权利要求1所述的方法,确定所述拼接文本与对应的标准文本之间的匹配表征值,具体包括:
根据所述拼接文本与对应的标准文本集中的标准文本之间的编辑距离,计算所述匹配表征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710337521.X/1.html,转载请声明来源钻瓜专利网。