[发明专利]文本搜索方法和系统有效

专利信息
申请号: 202110378851.X 申请日: 2021-04-08
公开(公告)号: CN113094470B 公开(公告)日: 2022-05-24
发明(设计)人: 蔡堃 申请(专利权)人: 蔡堃
主分类号: G06F16/33 分类号: G06F16/33;G06F40/232;G06F40/216;G06F16/31;G06F16/338
代理公司: 北京广技专利代理事务所(特殊普通合伙) 11842 代理人: 张国香
地址: 300000 天津*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 搜索 方法 系统
【权利要求书】:

1.文本搜索方法,其特征在于,其包括构建文本索引库的过程和文本的搜索过程,其中:

所述构建文本索引库的过程包括:

第一、确定需要搜索的文本A1及其对应的搜索结果C1,并生成所述文本A1对应的特征值A2;

第二、将所述文本A1分解得到包含至少1个拼音组的集合{B1、B2、…、Bn};其中,Bi表示第i个拼音组,i=1,2,3…n;n表示所述文本A1分解得到的拼音组的数量;

第三、根据所述集合{B1、B2、…、Bn}和所述特征值A2,构建关于所述搜索结果C1的拼音树形式的文本索引库;

所述文本的搜索过程包括:

第一、将输入的目标文本M1中包含的所有文本转换为对应的拼音文本M2,拼音文本M2是目标文本M1中所有最小单元各自对应的最小元素依序构成的文本,所述最小元素为最小单元对应的字符,所述最小单元包括中文字符、英文单词、字母或符号,所述字符包括字母和/或符号;

第二、对输入的所述目标文本M1进行处理得到对应的特征值M3;

第三、根据所述拼音文本M2和所述特征值M3,对所述拼音树形式的文本索引库进行搜索,得到目标文本M1对应的搜索结果;

其中,在所述构建文本索引库的过程中,将所述文本A1分解得到包含至少1个拼音组的集合{B1、B2、…、Bn}具体包括:

以中文字符、英文单词、字母、符号为最小单元,将所述文本A1依序进行切分,并将切分出的中文字符替换为对应的汉语拼音,从而得到所述文本A1对应的一组以汉语拼音、英文单词、字母和符号为最小元素的字符组F1;

依序取所述字符组F1中的每一个最小元素为字符头、以排列在该字符头后面的所有最小元素为后续字符,将每个字符头和该个字符头对应的后续字符依序排列,组成该个字符头对应的一个拼音组,从而最终生成每个字符头各自对应的拼音组;将第i个字符头对应的拼音组表示为所述Bi,最终构成所述集合{B1、B2、…、Bn};

其中,在所述构建文本索引库的过程中,根据所述集合{B1、B2、…、Bn}和所述特征值A2,构建关于所述搜索结果C1的拼音树形式的文本索引库具体包括:

将拼音组Bi对应拼音树的第i个分支,第i个分支包括依序连接的ni个节点,ni表示拼音组Bi包括的所有最小元素中字符的总数量;所述字符包括字母和/或符号;ni个节点上依序承载拼音组Bi的相应字符;所述拼音树的每个分支对应的叶子节点上承载所述特征值A2和所述搜索结果C1,从而形成所述文本索引库;

其中,在所述文本的搜索过程中,根据所述拼音文本M2和所述特征值M3,对所述拼音树形式的文本索引库进行搜索,得到目标文本M1对应的搜索结果,其包括:

在所述拼音树T的每个分支中搜索所述拼音文本M2,

若确定所述拼音树T的任何一个分支中不包含所述拼音文本M2,则返回空白形式的搜索结果;

若确定所述拼音树T的至少一个分支中包含所述拼音文本M2,则确定所述目标文本M1对应的特征值M3;

判断所述至少一个分支中每个分支对应的叶子节点上承载的特征值是否包含所述特征值M3,最后将匹配到的叶子节点反馈作为搜索结果。

2.如权利要求1所述的文本搜索方法,其特征在于:

在所述中文文本的搜索过程中,判断所述至少一个分支中每个分支对应的叶子节点上承载的特征值是否包含所述特征值M3,最后将匹配到的叶子节点反馈作为搜索结果具体包括:

对所述至少一个分支中每个分支对应的叶子节点上承载的特征值和特征值M3进行二分法判断;

若所述至少一个分支中每个分支对应的叶子节点上承载的特征值均不包含所述特征值M3,则返回空白形式的搜索结果;

若所述至少一个分支中存在至少一个第二目标分支对应的叶子节点上承载的特征值包含所述特征值M3,则根据每个第二目标分支对应的叶子节点上承载的特征值与特征值M3之间的匹配度输出相应的搜索结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蔡堃,未经蔡堃许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110378851.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top