[发明专利]面向搜索引擎的中英混合查询纠错的方法及系统有效
申请号: | 201710340283.8 | 申请日: | 2017-05-15 |
公开(公告)号: | CN107193921B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 刘玉葆;占明明;葛又铭;戴戈南 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/31;G06F16/33;G06F16/36 |
代理公司: | 44102 广州粤高专利商标代理有限公司 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向搜索引擎的中英混合查询纠错的方法及系统,该方法或系统基于N‑gram语言模型以及多种纠错策略,实现对搜索引擎中带有部分错误的中英文混合查询的纠错。 | ||
搜索关键词: | 面向 搜索引擎 混合 查询 纠错 方法 系统 | ||
【主权项】:
1.一种面向搜索引擎的中英混合查询纠错的方法,其特征在于:包括以下步骤:/nS1.运用爬虫技术爬取互联网网页内容;/nS2.将步骤S1爬取的网页内容和搜索日志作为语料构建出语言模型,以及构建基于拼音的字典树、英文索引表和分词词典;/nS3.对于用户输入的查询串,首先运用语言模型对其进行评估,计算其合理性概率,若其合理性概率低于设定的阈值A,或者基于查询串得到的搜索结果的数量少于阈值B,则转入步骤S4的纠错处理;/nS4.(1)若查询串中只包含有中文,则执行以下纠错过程:/nS101.若输入的查询串为单字,则不执行纠错过程或执行步骤S104,否则执行步骤S102;/nS102.将查询串转换成拼音,然后利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的候选集合,将匹配的候选集合作为纠错建议;若在字典树中查不到匹配的候选集合,则执行步骤S103;/nS103.将查询串进行N元切分,将切分得到的所有子串分别利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的候选集合;若某一子串查找到匹配的候选集合,则将该子串前面部分的字符串和后面部分的字符串分别作为两个查询串执行步骤S101,进入递归搜索;/nS104.递归搜索结束后,得到多个候选集合,此时采用语言模型对各个候选集合进行合理性评分,将评分最高的候选集合作为纠错建议;/n(2)若输入的查询串包含有中文和字母,则执行以下纠错过程:/nS201.首先将字符串按照S101~S103的步骤进行匹配的候选集合的查找,若查找得到匹配的候选集合,则给出相应的纠错建议;否则将查询串分割成中文和字母串,将中文按照(1)进行纠错处理,而至于字母串,则执行以下处理:/nS202.将字母串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议,否则该字符串进入步骤S203的英文纠错流程;/nS203.判断字符串是否为一个正确的英文单词,若是则进行下一字符串是否属于正确的英文单词的判断,否则根据预先建立的英文索引表查找出候选集合,然后利用最小编辑距离算法计算候选集合与字符串的相似度,将相似度最高的单词作为纠错建议;/n(3)若输入的查询串值只包含有字母,则执行以下纠错过程:/nS301.将查询串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议;若某一字符串查找不到匹配的候选集合,则按照步骤S203的内容进行英文纠错的处理;/nS302.当字符串集合中所有的字符串采纳纠错建议进行纠错处理后,将经过纠错处理的字符串按照顺序拼接起来,将拼接的结果作为查询串的纠错建议。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710340283.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种滑雪用面部防护罩
- 下一篇:一种轻薄柔软礼服面料