[发明专利]分词过程中进行前缀索引的方法及装置有效
申请号: | 201811622746.0 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109684439B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 谭峰 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 过程 进行 前缀 索引 方法 装置 | ||
本发明实施例提供一种分词过程中进行前缀索引的方法及装置,所述方法包括:基于改进的哈希算法SDBMHash对词典数据进行拆分并存储到多个双数组Trie树中;利用所述改进的哈希算法SDBMHash对待检索的词进行哈希计算,并根据哈希计算的结果确定所述待检索的词所在的双数组Trie树;在所述待检索的词所在的双数组Trie树中对所述待检索的词进行前缀索引。本发明实施例在支持把词典拆分多个双数组Trie树的应用场景下,还能保证在分词过程中前缀索引的高效。
技术领域
本发明实施例涉及自然语言处理技术领域,更具体地,涉及一种分词过程中进行前缀索引的方法及装置。
背景技术
双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,主要应用在信息检索领域,构建分词词典。双数组Trie树结合了数组存取的快速和链式存储的压缩。双数组Trie树支持前缀索引,即可以检索一个词在树中是否存在以该词为前缀的其他词。
分词即把一个句子分解成多个词。应用双数组Trie树的场景是把一个句子分解为多个在双数组Trie树中存在的词。在分词过程中,需要依次对句子中的词在双数组Trie树中进行前缀查询,判断该词是否存在以该词为前缀的其他词,来达到分词的目的。
双数组Trie树提高了词典的检索效率,但由于双数组的数据存储方式,所有词典数据是一个整体。在实际应用中,词典往往是非常大的。这会给词典的加载、持久化、存储等方面造成效率低、耗时长、管理难等缺陷。为了解决词典过大问题,可以把词典数据进行拆分,分布的存储到多个双数组Trie树。但是在分词过程中进行前缀索引时,需要依次去每个双数组Trie树进行检索该词,极大的降低了检索效率。
因此,亟需提供一种方法,在支持把词典拆分多个双数组Trie树的应用场景下,还能保证在分词中进行高效地前缀索引。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的分词过程中进行前缀索引的方法及装置。
第一方面,本发明实施例提供一种分词过程中进行前缀索引的方法,包括:
基于改进的哈希算法SDBMHash对词典数据进行拆分并存储到多个双数组Trie树中;
使用所述改进的哈希算法SDBMHash对待检索的词进行哈希计算,并根据哈希计算的结果确定所述待检索的词所在的双数组Trie树;
在所述待检索的词所在的双数组Trie树中对所述待检索的词进行前缀索引。
第二方面,本发明实施例提供一种分词过程中进行前缀索引的装置,包括:
分组模块,用于基于改进的哈希算法SDBMHash对词典数据进行拆分并存储到多个双数组Trie树中;
哈希计算模块,用于使用所述改进的哈希算法SDBMHash对待检索的词进行哈希计算,并根据哈希计算的结果确定所述待检索的词所在的双数组Trie树;
前缀索引模块,用于在所述待检索的词所在的双数组Trie树中对所述待检索的词进行前缀索引。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的分词过程中进行前缀索引的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的分词过程中进行前缀索引的方法的步骤。
本发明实施例提供的分词过程中进行前缀索引的方法及装置,在支持把词典拆分多个双数组Trie树的应用场景下,还能保证在分词过程中前缀索引的高效。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811622746.0/2.html,转载请声明来源钻瓜专利网。