[发明专利]候选词评估方法、装置、计算机设备和存储介质有效
申请号: | 201810320358.0 | 申请日: | 2018-04-11 |
公开(公告)号: | CN108628826B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 李贤 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/284;G06F40/216 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 冯右明 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选 评估 方法 装置 计算机 设备 存储 介质 | ||
1.一种候选词评估方法,其特征在于,包括:
检测到错词,获取错词对应的多个候选词;所述错词包括基于用户的书写操作得到的词;
确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列率和/或最长公共子串率得到;所述最长公共子序列率和/或所述最长公共子串率用于表征各候选词与错词之间相同字符的多寡,以及相同字符所占的比例;
确定各候选词在所述错词位置的语言环境概率;
获取所述错词相对于各候选词的出错信息;所述出错信息用于表征所述错词与各候选词的区别信息;
根据所述相似度、所述语言环境概率以及出错信息,确定各候选词对应的评估得分;
其中,所述确定各候选词在所述错词位置的语言环境概率,包括:
根据预设的语言模型计算各候选词在所述错词位置的概率,将该概率的log值作为所述候选词的语言环境概率;
所述根据所述相似度、所述语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:
根据所述相似度、所述语言环境概率的倒数以及出错信息,确定各候选词对应的评估得分;
所述出错信息包括以下任一项或多项:
所述错词与候选词的字符数量是否相同的信息、所述错词与候选词的偏旁是否相同的信息、所述错词中是否含有非法符号的信息。
2.根据权利要求1所述的候选词评估方法,其特征在于,
所述语言模型包括:N-Gram模型、BiLSTM模型或者LSTM模型。
3.根据权利要求1至2任一所述的候选词评估方法,其特征在于,所述错词相对于各候选词的出错信息中包括:所述错词与候选词是否首字母相同的信息;
所述根据所述语言环境概率以及出错信息,确定各候选词对应的评估得分,包括:
若错词与候选词首字母相同,根据所述相似度、所述语言环境概率以及第一系数计算所述候选词的评估得分;
若错词与候选词首字母不同,根据所述相似度、所述语言环境概率以及第二系数计算所述候选词的评估得分。
4.根据权利要求3所述的候选词评估方法,其特征在于,还包括步骤:
检测到待检测词不在预设词库中,确定所述待检测词为错词。
5.根据权利要求4所述的候选词评估方法,其特征在于,在检测出错词之后,还包括:
计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。
6.根据权利要求1、2、4、5中任一所述的候选词评估方法,其特征在于,还包括:
根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词对所述错词进行纠错;
和/或,
根据所述评估得分对所述多个候选词进行排序,显示排序后的所述多个候选词。
7.根据权利要求6所述的候选词评估方法,其特征在于,所述根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,包括:
从多个候选词中确定出所述评估得分最高的候选词,作为所述错词对应的纠错词。
8.根据权利要求1所述的候选词评估方法,其特征在于,根据如下公式计算各候选词的评估得分:
其中,word表示候选词,mx表示语言模型,表示候选词的语言环境概率,scoreword表示候选词对应的评估分值,K表示错词相对于各候选词的出错信息;若候选词和错词首字母相同,K取值为K1,否则,K取值K2,K1、K2均为预设的数值,S表示候选词与所述错词的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810320358.0/1.html,转载请声明来源钻瓜专利网。