[发明专利]一种英文单词拼写检查方法在审
申请号: | 201810555195.4 | 申请日: | 2018-06-01 |
公开(公告)号: | CN109033065A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 邵玉斌;王林坪;龙华;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种英文单词拼写检查方法,属于自然语言处理技术领域。首先用常规的Levenshtein距离对输入的单词与英文词典进行编辑距离的计算,根据阈值筛选出与其相似的一个单词集合;然后引入按键编辑距离模型,计算出输入单词与单词集合中的所有单词的按键编辑距离,其次,视觉编辑距离模型,计算出输入单词与单词集合中的所有单词的视觉编辑距离;最后,给予以上计算所得的相似度相应的权值,通过加权编辑距离计算。本发明与现有技术相比,主要解决了现阶段文本编辑器对英文单词进行拼写检查的不准确性和冗余过多等现象,可以把匹配到的近似单词集缩小到更精确的范围。 | ||
搜索关键词: | 单词 编辑距离 单词集合 拼写检查 英文单词 按键编辑距离 输入单词 自然语言处理技术 视觉 加权编辑距离 文本编辑器 阈值筛选 常规的 相似度 冗余 匹配 近似 英文 引入 | ||
【主权项】:
1.一种英文单词拼写检查方法,其特征在于:Step1:选中所需进行拼写检查的单词A;Step2:遍历英文词典,将单词A与词典中词汇进行近似匹配,利用编辑距离来度量查询,设编辑距离的阈值为X,筛选出部分单词集合B={w1,w2,w3,…,wn},n的大小由阈值X决定,n表示的是单词A与英文词典中所有单词的编辑距离小于X的单词总个数;Step3:根据键盘字母近似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于键盘字母近似的编辑距离I(A,Bi);Step4:根据字母视觉相似数据库,计算单词A与单词集合B={w1,w2,w3,…,wn}中元素wi,i∈[1,n]之间基于字母视觉相似的编辑距离J(A,Bi);Step5:设Step3、Step4步骤所计算出的编辑距离对应权值分别为i、j,权值i、j满足i+j=1的要求,由编辑距离I(A,B)及权值i、编辑距离J(A,B)及权值j,计算单词A和文本B的加权编辑距离R(A,B)=I(A,B)×i+J(A,B)×j,根据加权编辑距离和阈值Y进一步筛选单词集合B中的元素。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810555195.4/,转载请声明来源钻瓜专利网。