[发明专利]一种中文相似性匹配方法有效
申请号: | 201110053729.1 | 申请日: | 2011-03-07 |
公开(公告)号: | CN102122298A | 公开(公告)日: | 2011-07-13 |
发明(设计)人: | 李国良;黄维篁;冯建华 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 相似性 匹配 方法 | ||
技术领域
本发明涉及搜索中的文相似性匹配技术领域,特别是涉及一种中文相似性匹配方法。
背景技术
字符串的相似性函数作为衡量两个字符串之间近似程度的函数,是字符串匹配(String matching)、文本比较(Text Comparison)、信息抽取(Information Extraction)中一项基本技术,它的输入通常是两个相同或不同的字符串,返回一个确定的整数值。两个字符串相似度越高,对应的返回值就越大。这项技术在计算生物学(Computational Biology),信号处理(Signal Processing)中也有广泛的应用。
针对应用场合不同,有很多经典的相似性函数可供选择。例如:编辑距离(Edit Distance或Levenshtein Distance),它考虑了三种编辑操作——插入(Insertion),删除(Deletion)和替换(Substitution),用将一个字符串转换成另一个字符串所需要的最少的编辑操作的数量作为这两个字符串的相似度;Smith-Waterman距离(Smith-Waterman Algorithm)是一种用于找到两个序列中相似区域的算法,经常用于计算生物学中核苷酸序列、氨基酸序列的比对。这种算法中,所涉及的操作也只有三种:插入、删除和替换。除了以上精确计算两个字符串差异的这些算法,也存在其他近似的简单的基于统计的方法。例如:Dice距离(Dice Coefficient)或Jaccard距离(Jaccard Index或Jaccard Similarity Coefficient),这两种方法在计算时都需要先将要比较的字符串s1,s2划分成q-gram,一个字符串的q-gram指的是它的所有长度为q的连续子串,例如,apple的2-gram就是:ap,pp,pl,le。划分结束后,得到两个字符串对应的q-gram集合SQ1,SQ2,则Dice(s1,s2)=2*|SQ1∩SQ2|/(|SQ1|+|SQ2|),Jaccard(s1,s2)=|SQ1∩SQ2|/|SQ1∪SQ2|。考虑到读音相近的字符更容易出现拼写错误,有人发明了基于读音的相似性函数,例如Soundex,这种算法将英文中发音相似的字母编码为相同的数字,例如b,f,p,v都映射为1。h,w这样不存在发音相近的字母的情况则不映射。通过上述方式,一个由英文字母组成的字符串就被转换成一个字母加数字的字符串,再通过更进一步的计算得到这两个字符串的相似度,作为原字符串的相似度。以上这些方法足以覆盖需要衡量字符串相似度的大部分领域,但是它们的局限性在于所有的这些方法都是针对英文,或者可以比较容易地推广到印欧语系的其他语种(例如:法语),对于汉语这样的结合了字形与读音的语种,它们的应用将受到一定的限制。
若是将汉字转化成拼音,英文的相似性函数可以用于中文字符串的相似性比较。但是需要考虑到中文自身的特点。首先,在拼音中,每个字符(或者有意义的字符组合)发音都是确定的,例如字母a在无论是出现在chang还是fang中,它的发音都是不变的。英文则完全不同,同样对于字母a,在cake中的发音就是[ei],而在cat中则发而汉语拼音中,有意义的字母组合数量是很少的,例如ding是有意义的,但是对于这四个字母可能组成的其他15个排列,只有di,ni有汉字与之对应,英文中则不相同,nid,gin,di,id这些组合(省略其他情况)都有确定的含义。编辑操作对于中文而言,覆盖了很多可以省略的情况。在另一方面,中文中的编辑操作也无法用简单的插入、删除和替换操作来概括。例如考虑heng(恒)和hen(痕),heng(恒)和sheng(绳),这两组字符串对应的编辑距离都为1,但是很显然,前两个字符串的近似度更高,因为它更符合中文中的发音错误。而对于heng(哼)和sheng(声),sen(森)和sheng(声),即使前一组字符串的编辑距离为1,而后一组字符串的编辑距离为2,我们仍然会认为后两者更加接近。除了上面的简单的示例外,中文还存在许多复杂情况,例如方言、字形等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110053729.1/2.html,转载请声明来源钻瓜专利网。