[发明专利]一种基于搜索语句切词结果的搜索方法及系统在审
申请号: | 201711290902.3 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108009153A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 王兵权;喻波;王志海;魏效征;牛立伟;曹石勇 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q30/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索 语句 结果 方法 系统 | ||
本发明公开了一种基于搜索语句切词结果的搜索方法及系统,该方法包括:接收搜索框内输入的搜索语句;查找所述搜素语句中的停用词;对停用词之前的语句利用Trie树字典进行正向切分和逆向切分;判断正向切分和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,否则对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;采用该最终切分结果作为搜索语句的关键词进行搜索。通过本发明的技术方案,可以提高切词的准确性,使得搜索结果更为准确。
技术领域
本发明涉及数据搜索领域,具体涉及一种基于搜索语句切词结果的搜索方法及系统。
背景技术
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。
中文分词是指将中文文档里的汉字序列切分为一个个单独的词。
停止词(stopword)是指在自然语言环境中出现频率很高,但对于与文档的语义和分类没有实际影响的词汇。例如英文中的“the”、“and”、“of”等,中文中的“这”、“的”、“了”、“至于”等。
字典树,又称单词查找树,Trie树,是一种树形结构,哈希表的一个变种。用于统计,排序和保存大量的字符串。优点就是利用公共的前缀来节约存储空间。在这举个简单的例子:比如说我们想储存3个单词,中国、中国人,中国人民。如果只是单纯的按照以前的字符数组存储的思路来存储的话,那么我们需要定义三个字符串数组。但是如果我们用字典树的话,只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了,例如中作为父节点,国作为中的子节点,人作为国的子节点,民作为人的子节点,每个节点有个标志可以表明是否构成词语。
词性包括产品词、品牌词、地区词、分类词等。
词库是指将词和词性的组合存储到文件中。
倒排索引是实现“单词-文档矩阵”的一种具体存储形式即某个词在哪些文档中存在。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
为了识别用户搜索词中的产品词,快速准确获取该产品词最相关的文档集合,通过中文切词实现。现有技术中,MMSEG和结巴分词主要针对utf-8编码切词的,且词性方面不受控制。
针对大量产品商机中快速准确获取用户搜索词中产品词相关的商机需求,为了实现用户快速准确高效的搜索体验。迫切需要从词库来源、切词方法两个方面的技术问题着手生成解决方案。
发明内容
为解决上述技术问题,本发明提供了一种基于搜索语句切词结果的搜索方法,其特征在于,该方法包括以下步骤:
1)接收搜索框内输入的搜索语句;
2)查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;
3)利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;
4)判断所述正向切分结果和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,跳转到步骤6),否则跳转到步骤5);
5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;
6)采用该最终切分结果作为搜索语句的关键词进行搜索。
根据本发明的实施例,优选的,所述步骤1)之前,包括以下步骤:
根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711290902.3/2.html,转载请声明来源钻瓜专利网。