[发明专利]文本识别、文本处理方法、装置、计算机设备和存储介质有效
| 申请号: | 201811168737.9 | 申请日: | 2018-10-08 |
| 公开(公告)号: | CN110162681B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 黄子轩;王军伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/332;G06F40/284 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 陈小娜;何平 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 识别 处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本识别方法,所述方法包括:
获取待识别文本,根据所述待识别文本中的字符得到目标候选词;
获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;
计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;所述目标重要度与所述目标候选词在所述目标文本集合中出现的次数成正相关关系,所述参考重要度与所述目标候选词在所述通用领域文本集合中出现的次数成正相关关系;
根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;
按照目标相关度从大到小的顺序从各所述目标候选词中选取预设数量的目标候选词,作为所述目标领域的领域词;
对初始输入文本进行切分,得到各切分后的词语,确定各切分后的词语分别对应的候选输入词;切分后的词语对应的候选输入词与所述切分后的词语形近或拼音相同,根据所述初始输入文本的词语的组成关系和各所述候选输入词,构建词语关系链集合;所述初始输入文本属于所述目标领域,各所述候选输入词包括目标领域词,所述目标领域词属于所述目标领域的领域词;所述词语关系链集合包括一条或者多条词语关系链,所述词语关系链是由各切分后的词语分别对应的候选输入词依次连接组成的关系链;
计算各个词语关系链中由至少一个前向词语转移到当前词语的转移概率;前向词语是在词语关系链中位于当前词语之前的词语,所述由至少一个前向词语转移到当前词语的转移概率,表示在出现所述至少一个前向词语的情况下出现当前词语的概率;
根据所述词语关系链对应的各个转移概率得到所述词语关系链的连接强度;
根据所述词语关系链的连接强度从所述词语关系链集合中筛选得到目标词语关系链,将所述目标词语关系链对应的文本作为目标输入文本。
2.根据权利要求1所述的方法,其特征在于,所述按照目标相关度从大到小的顺序从各所述目标候选词中选取预设数量的目标候选词,作为所述目标领域的领域词之后,还包括:
根据映射关系确定所述领域词对应的映射字符,所述映射关系包括形近映射、音近映射中的至少一种;
建立所述领域词与所述映射字符之间的关联关系。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本中的字符得到目标候选词包括:
根据所述待识别文本中字符的邻近关系生成初始候选词集合;
计算所述初始候选词集合中各个初始候选词在所述目标文本集合中的词语关联度以及词语独立度;
根据所述词语关联度以及所述词语独立度计算得到所述各个初始候选词的词语生成度;
根据所述各个初始候选词的词语生成度从所述初始候选词集合中筛选得到所述目标候选词。
4.根据权利要求3所述的方法,其特征在于,所述计算所述初始候选词集合中各个初始候选词在所述目标文本集合中的词语关联度包括:
根据所述初始候选词在所述目标文本集合中的出现次数确定对应的关联置信度;
根据所述初始候选词在所述目标文本集合中的出现概率确定所述初始候选词的词语初始关联度;
根据所述初始候选词对应的关联置信度和词语初始关联度计算得到词语目标关联度。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述初始候选词对应的词语独立度小于第一阈值时,根据所述初始候选词和所述初始候选词在所述待识别文本中的相邻字符形成新的初始候选词;
将所述新的初始候选词加入所述初始候选词集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度包括:
根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的初始相关度;
根据所述目标候选词在所述目标文本集合中的出现次数确定对应的相关度置信度;
根据所述初始相关度以及所述相关度置信度得到所述目标相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811168737.9/1.html,转载请声明来源钻瓜专利网。





