[发明专利]一种自适应文本检索方法在审
申请号: | 201810657307.7 | 申请日: | 2018-06-25 |
公开(公告)号: | CN108920576A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 么永辉 | 申请(专利权)人: | 中科点击(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京兆君联合知识产权代理事务所(普通合伙) 11333 | 代理人: | 刘俊玲 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本检索 自适应 词库 分词 检索 分词结果 索引文本 粗粒度 索引库 细粒度 算法 方法和装置 训练语料库 检索文本 文本索引 检索词 实时性 无监督 热词 索引 文本 更新 分析 发现 | ||
本发明提供了一种自适应文本检索方法,包括:将训练语料库生成词库;利用所述生成的词库,对于待索引文本使用细粒度分词算法进行分词拆分,并利用细粒度分词结果将文本索引到ES;检索时,对待检索词使用粗粒度分词算法进行分析,利用粗粒度分词结果在ES索引库中进行检索;根据ES的索引文本和用户的检索文本对词库进行更新,自适应地调整ES检索和索引的分词词库。本发明还提供了实现所述自适应文本检索的装置。本发明所述的自适应文本检索方法和装置可以无监督地实时发现索引库中的新词、热词,并将其同步到ES检索分词库中,从而更加准确地对文本进行分词,不再依赖于用户的手工添加,具有更强的实时性,提高了文本检索的准确性和效率。
技术领域
本发明涉及信息技术领域,尤其涉及一种大数据量文本检索方法。
背景技术
由于目前Elasticsearch(ES)官方提供的中文分词插件smartcn的分词效果不是特别好,所以用户在使用ES做中文检索时通常会添加自定义分词插件。现在常用的ES中文分词插件主要有两种,IK分词和ansj分词,但是这两种分词算法都依赖于其内置的分词库,分词结果取决于其内置的分词库。虽然二者都提供了用户热词更新功能,但是这种热词更新需要用户手工去维护,维护成本比较高。同时现有的分词插件不能及时地发现文本数据中的新词热词,为用户提供更加准确的分词检索服务。
发明内容
为了克服现有的这种数据检索的局限性,本发明将非主流自然语言处理方法和ES结合,实现了一种文本自适应的ES中文检索方法,具体技术方案如下:
一种自适应文本检索方法,包括如下步骤:
S1:将训练语料库生成词库。
S2:利用步骤S1生成的词库,对于待索引文本使用分词粒度不大于4的细粒度分词算法进行分词拆分,并利用所述细粒度分词结果将文本索引到ES。
S3:检索时,对待检索词使用分词粒度不大于7的粗粒度分词算法进行分析,利用所述的粗粒度分词结果在ES索引库中进行检索。
S4:根据ES的索引文本和用户的检索文本对词库进行更新,自适应地调整ES检索和索引的分词词库。
作为本发明的进一步改进,S1所述的将训练语料库生成词库,具体包括步骤:
S11:逐字扫描训练语料中的句子,计算单个字出现的概率以及两字相邻共现的概率,如果相邻两字满足公式P(W1W2)<P(W1)*P(W2),则将两字断开;其中,P(Wn)表示单个字出现的概率,n=1,2,且P(W1W2)表示两字相邻共现的概率,且
S12:按照步骤S11的方法将句子划分成若干长度不大于7的子串,作为候选词;
S13:收录所述候选词中相对稳定周期性重现的词汇进入词库。
优选地,句子S的最佳分词方案为满足公式P(S)=P(W1,W2,…Wn)最大,其中,P(S)表示句子S出现的概率,Wn表示最佳分词方案中的各个词,P(W1,W2,…Wn)表示分词方案中各词的联合概率,直到词频的波动小于0.75,即可获得成熟的词库。
作为本发明的进一步改进,S2所述的对于待索引文本使用分词粒度不大于4的细粒度分词算法进行分词拆分,具体包括步骤:
S21:逐字扫描句子,从所述词库中查出字长在4以内、以该字结尾的所有词,分别计算其中的词与所述词之前各词的概率乘积,取结果值最大的词,分别缓存下当前字所在位置的最大概率积,以及对应的分词结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科点击(北京)科技有限公司,未经中科点击(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810657307.7/2.html,转载请声明来源钻瓜专利网。