[发明专利]文本搜索方法和系统有效
申请号: | 202110378851.X | 申请日: | 2021-04-08 |
公开(公告)号: | CN113094470B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 蔡堃 | 申请(专利权)人: | 蔡堃 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/232;G06F40/216;G06F16/31;G06F16/338 |
代理公司: | 北京广技专利代理事务所(特殊普通合伙) 11842 | 代理人: | 张国香 |
地址: | 300000 天津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 搜索 方法 系统 | ||
本发明提供了文本搜索方法和系统,其针对用户输入文本可能造成输入错误的情况,其利用拼音树确定文本的搜索顺序,再对用户输入的文本内容进行排序和压缩得到特征值,然后对从拼音树搜索到的节点集合的每个节点的特征值和用户输入的文本的特征值进行基于二分法判断的文本比对,以及对完全比对成功的内容和不完全比对成功的内容按照不同优先级进行返回,以便于快速地和广泛地搜索出相应的结果,从而能够准确地搜索出输入完全匹配的内容和拼音正确但输入文字不正确的内容,以此提高中文搜索的效率和可靠性。
技术领域
本发明涉及工业生产仿真设计的技术领域,特别涉及文本搜索方法和系统。
背景技术
关键字搜索是指在预定的文本中搜索某个关键字的技术,其广泛应用于互联网和软件开发领域中。目前,通常使用倒排索引的方式来进行关键字搜索,其能够实现将用户搜索的内容先去通过前缀树搜索得到关键字,再通过关键字将对应的关联文档返回回来,从而完成对关键字的搜索。但是,现有技术的关键字搜索方式注重于精准型的搜索模式而非广泛匹配的搜索模式。比如现代拼音输入法在输入拼音的过程中,往往依照用户输入的拼音优先展示用户常用的中文词语,而非真正用户在本次搜索中需要的中文词语,使用户错误输入拼音相同但文字不同的中文,导致无法查询到关键字;又或者因为用户因故意避开敏感词去输入非敏感的中文词语或者拼音,导致无法触发屏蔽检测;即用户会输入错误中文汉字或用拼音代替中文,导致文本搜索的结果可能性和可靠性被降低了。同时,对于小微公司或个人创业者来说,若想要搭建一套简单可用的分布式的搜索或关键字检测系统,在搭建、调试、代码接入和运行维护上都要付出较高的成本和精力。
发明内容
针对现有技术存在的缺陷,本发明提供文本搜索方法和系统,其包括构建文本索引库和文本的搜索,构建文本索引库包括:确定需要搜索的文本A1及其对应的搜索结果C1,并生成该文本A1对应的特征值A2;将该文本A1分解得到包含拼音的数组的集合{B1、B2、...、Bn};根据该包含拼音的数组的集合{B1、B2、...、Bn}和该特征值A2,构建形成关于该搜索结果C1的拼音树形式的文本索引库;而文本的搜索包括:将输入的目标文本M1中包含的所有文本转换为拼音文本M2;将输入的该目标文本M1处理得到对应的特征值M3;以拼音文本M2作为搜索依据,对该文本索引库进行搜索,得到符合拼音文本M2的节点集合,再依据所获得的节点集合中每个节点的特征值和该特征值M3进行匹配,反馈得到该文本索引库中的节点内容作为搜索结果;可见,该文本搜索方法和系统是针对用户输入文本可能造成输入错误的情况,其利用拼音树确定文本的搜索顺序,再对用户输入的文本内容进行排序和压缩得到特征值,然后对从拼音树搜索到的节点集合的每个节点的特征值和用户输入的文本的特征值进行基于二分法判断的文本比对,以及对完全比对成功的内容和不完全比对成功的内容按照不同优先级进行返回,以便于快速地和广泛地搜索出相应的结果,从而能够准确地搜索出输入完全匹配的内容和拼音正确但输入文字不正确的内容,以此提高中文搜索的效率和可靠性。
本发明提供文本搜索方法,其特征在于,其包括构建文本索引库的过程和文本的搜索过程,其中:
所述构建文本索引库的过程包括:
第一、确定需要搜索的文本A1及其对应的搜索结果C1,并生成所述文本A1对应的特征值A2;
第二、将所述文本A1分解得到包含至少1个拼音组的集合{B1、B2、…、Bn};其中,Bi表示第i个拼音组,i=1,2,3…n;n表示所述文本A1分解得到的拼音组的数量;
第三、根据所述集合{B1、B2、…、Bn}和所述特征值A2,构建关于所述搜索结果C1的拼音树形式的文本索引库;
所述文本的搜索过程包括:
第一、将输入的目标文本M1中包含的所有文本转换为对应的拼音文本M2,拼音文本M2是目标文本M1中所有最小单元各自对应的最小元素依序构成的文本,所述最小元素为最小单元对应的字符,所述最小单元包括中文字符、英文单词、字母或符号,所述字符包括字母和/或符号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蔡堃,未经蔡堃许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110378851.X/2.html,转载请声明来源钻瓜专利网。