[发明专利]一种减少Lucene无字典n-gram切词占用存储空间的方法在审
申请号: | 201911307360.5 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111078824A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 母延年 | 申请(专利权)人: | 南京录信软件技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 减少 lucene 字典 gram 占用 存储空间 方法 | ||
1.一种减少Lucene无字典n-gram切词占用存储空间的方法,其特征在于:包括如下步骤,
S1:输入数据样例;
S2:对数据样例进行SNGram切割,获得跳跃倒排表;
S3:对步骤S2所获得的数据倒排表进行ngram切词;
S4:创建SNGram的映射,完成数据样例的存储。
2.根据权利要求1所述的一种减少Lucene无字典n-gram切词占用存储空间的方法,其特征在于:所述数据样例的格式包括但不限于数字、汉字、字母、标点以及空格。
3.根据权利要求1所述的一种减少Lucene无字典n-gram切词占用存储空间的方法,其特征在于:所述步骤S2中,所述SNGram切割中,S代表切割文本跳跃长度,即对原始文本每间隔s长切一个词,NGram代表对切完后的每个词进行Ngram处理,对切词后的词进行二次索引,N为索引长度。
4.根据权利要求3所述的一种减少Lucene无字典n-gram切词占用存储空间的方法,其特征在于:所述跳跃倒排表中每个字串的长度为S+N-1。
5.根据权利要求1所述的一种减少Lucene无字典n-gram切词占用存储空间的方法,其特征在于:所述步骤S3中,所建立的映射为长度为N的索引与跳跃倒排表中的字串,其中一个索引对应不少于一个字串。
6.根据权利要求1所述的一种减少Lucene无字典n-gram切词占用存储空间的方法,其特征在于:所述步骤S4中,完成存储后,可以通过索引检索步骤S1中所输入的数据样例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京录信软件技术有限公司,未经南京录信软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911307360.5/1.html,转载请声明来源钻瓜专利网。