[发明专利]一种利用非结构化文档加速结构化数据检索的方法在审
申请号: | 201810193383.7 | 申请日: | 2018-03-09 |
公开(公告)号: | CN108536742A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 邓晨昱 | 申请(专利权)人: | 广州慧睿思通信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 511442 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 非结构化文档 加速结构 数据检索 自然语言分析 结构化数据 排序 检索 转化 | ||
本发明公开了一种利用非结构化文档加速结构化数据检索的方法,利用将结构化数据转化为非结构化文档的方法,达到提升其检索速度的目的,并利用自然语言分析的方法,提升其排序准确性。
技术领域
本发明涉及计算机系统中结构化数据的检索技术领域,特别涉及一种利用非结构化文档加速结构化数据检索的方法。
背景技术
倒排索引:是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
评分排序:根据检索条件的不同,当检索的关键字相关结果较多时,根据检索结果记录的相关性进行排序就显得尤为重要。结合自然语言处理中的词性分析技术,可使得排序结果更接近人类思维所需结果。
目前针对结构化数据检索更多停留在加速或与非结构化数据统一检索方法层面,需要提供一种新的方法,对结构化数据及其嵌套关联的数据进行高效全文检索,并能以接近人类思维的方式给出按相关性排序的结果集。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种利用非结构化文档加速结构化数据检索的方法,将结构化数据转化为非结构化文档,达到提升其检索速度的目的;并利用自然语言分析的方法,提升其排序准确性。
本发明的目的通过以下的技术方案实现:
一种利用非结构化文档加速结构化数据检索的方法,通过将结构化数据转化为非结构化文档进行检索;设置带有一定能量的词语构建非结构化文档,使得检索结果可依照词性能量参与相关性权重计算,进而优化检索结果的排序效果。
优选的,具体步骤为:
1、搜集所有相关的结构化数据结构及其关联关系;
2、设计数据属性间的关联词,以及关联数据关系的关联词;
3、如同写文章描述对象的方式,设计生成文档的结构;
4、将生成的文档输入全文检索引擎,建立倒排索引;
5、检索结果时,根据步骤2所定义的关联词能量及对应关键字的相关性权值,参与计算关联度排序分数。
本发明与现有技术相比,具有如下优点和有益效果:
目前针对结构化数据检索更多停留在加速或与非结构化数据统一检索方法层面,而本发明既有加速检索的效果,亦能改善检索结果的排序。通过将结构化数据转换为非结构化文档的方式,可充分利用现有成熟的全文检索引擎进行简单高效的检索。通过精心设计关联词,可以接近人类思维的方式进行结果相关度评判,更符合人类习惯。
附图说明
图1是实施例1方法的数据处理阶段流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
一种利用非结构化文档加速结构化数据检索的方法,通过将结构化数据转化为非结构化文档进行检索;通过设置带有一定能量的词语构建非结构化文档,使得检索结果可依照词性能量参与相关性权重计算,进而优化检索结果的排序效果。具体步骤如下:
1、搜集所有相关的结构化数据结构及其关联关系;
2、设计数据属性间的关联词,以及关联数据关系的关联词;
3、如同写文章描述对象的方式,设计生成文档的结构;
4、将生成的文档输入全文检索引擎,建立倒排索引;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州慧睿思通信息科技有限公司,未经广州慧睿思通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810193383.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用能异常监测方法
- 下一篇:一种指控系统数据库数据同步系统