[发明专利]基于语义树的索引方法和系统有效
申请号: | 201610238991.6 | 申请日: | 2016-04-18 |
公开(公告)号: | CN105843960B | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 张留学;朱小姣 | 申请(专利权)人: | 上海泥娃通信科技有限公司;张留学;朱小姣 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201204 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明主要涉及全文搜索领域,公开了一种构建语义树,并提供基于语义树的索引方法和系统。按语句中的文字的顺序对语句进行增量散列编码处理,形成特定的语义信息编码,存储前置语义特征信息,文字和语义特征,构建语义树;通过语义树,语义树和文档关联表,和文档的存储,建立基于语义的索引基础,提供基于语义树的全文搜索引擎。本发明的优点是不再依赖于分词服务,存储空间小,查询速度快等特点,适合文字信息的全文索引,和基于语义树的语义理解和处理。 | ||
搜索关键词: | 基于 语义 索引 方法 系统 | ||
【主权项】:
1.基于语义树的索引方法,主要特征包括:/n构建基于语义信息的全文搜索引擎,通过文档的导入,以文档中的句子为单位,形成语义树,由此构建全文检索系统;/n语义是基于文字上下关联的,通过对文字信息的增量hash编码,构建文字的序列信息特征,即语义特征序列,语义特征序列构建形式如下:/n语句中的文字排列如下:w1w2w3...wn,依次表示为文字1到文字n的排列;/nw1的特征序列定义为t1,t1=hash(w1);/nw2的特征序列定义为t2,t2=hash(t1+w2);/n依此类推,wn的特征序列定义为tn,tn=hash(tn-1+wn);/nti其中i=1,2,...n表示该语句的语义特征序列;/n该方法按如下步骤进行:/n步骤1、语义树的构建/n语义树的概念如下:基于文字的表示习惯,以语句为单位构建文字和文字之间的前后关系,具体表现为存储的内容包括:前文字的特征信息编码,当前文字信息,当前文字序列的特征信息编码,语义树基本构建单元包括:/n{ti-1,wi,ti,flag),其中flag为该特征在句子中位置的标识,由此组建语义树;/n步骤2、语义特征序列和文档的关联存储/n语义特征序列主要有三类:句首、句中和句尾特征序列,仅仅需要记录句尾的语义特征序列和文档的关系即可;句尾语义特征序列和文档的标识形成对应的关系,存储和记录该对应关系,存储该语义特征序列代表的语句在文档的位置;/n步骤3、针对语句或者语句片段的查找/n通过构建查找的内容的特征序列,在特征语义树中查找该记录,查找主要分为以下步骤:/n特征序列的最大化查找,首先查找位于句尾的特征序列,找到及进行关联文档的查询即可;否者进入特征序列的递减查找;/n特征序列的递减查找,从句尾特征序列向前递减查找,以此递归直到找到特征序列或者没有找到句首的特征序列为止;/n步骤4、语句特征序列的关联文档或者处理方式查找/n查找到的语义特征序列如果位于文档尾部,则可以从语义特征序列和文档的关联存储查找文档标识,通过文档标识进行文档的查找;否则进入查找句尾特征序列;/n步骤5、查找句尾特征序列/n在语义树中查找句尾特征序列:/n语义树基本存储结构为{ti-1,wi,ti,flag);/n查找ti-1特征序列,通过语义树首先找到ti,判断是否为句尾;/n如果是,则从文档和特征序列的关系表中查询文档的标识;如果否,则继续查找,直到找到句尾特征序列,根据特征序列查询文档标识;/n步骤6、查询文档标识/n从特征序列和文档的关系表中,查询文档标识记录,查询语句在文档中的位置;/n步骤7、查询文档/n根据文档标识查询文档信息;查询语句的语义处理和理解方法;根据句尾语义特征序列,在文档的存储中找到相关的处理方法。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海泥娃通信科技有限公司;张留学;朱小姣,未经上海泥娃通信科技有限公司;张留学;朱小姣许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610238991.6/,转载请声明来源钻瓜专利网。
- 上一篇:搜索方法和装置
- 下一篇:多媒体推荐方法及装置