[发明专利]一种提高数据库检索信息相关度的方法有效
申请号: | 201310129209.3 | 申请日: | 2013-04-15 |
公开(公告)号: | CN103177123A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 刘秉国;刘明;彭金辉;刘晨辉;张利波;何广军 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 数据库 检索 信息 相关 方法 | ||
技术领域
本发明涉及一种提高数据库检索信息相关度的方法,属数据库检索技术领域。
背景技术
在许多专业领域数据库系统中,往往存在大量的专业术语或专业名词的记录,如在冶金领域的矿物介电常数数据库所涉及的矿物名称的记录非常多,而在大量记录的数据库中,如何根据用户的带有专业术语的检索词有效的检索出更多相关的信息也是各种专业领域数据库系统的一个重要研究方向。
通常在数据库中检索矿物介电常数记录时,会根据矿物的名称来进行检索。如检索“硫铁矿”,采用常规的数据库检索方法,可以应用SQL(Structured Query Language)语句来检索数据库的表(Table)中的某个字段(Field)的值为某一指定的值,例如:“SELECT 矿物名称,介电常数 FROM 矿物介电常数表 WHERE 矿物名称=‘钛铁矿’”这样的语句来检索数据库。这种检索方式往往检索到单一的信息,而无法得到与“钛铁矿”相关联的矿物,如“锰铁矿”、“硫铁矿”的介电常数信息。这种方式下,用户往往需要多次输入检索词才能检索到所需要的信息,而且每次的显示结果都是单一的,不能将一些用户需要的信息整合到一起显示,以便用户对比研究。目前很多检索系统是通过提供高级检索方式,由用户输入多个检索词以构造检索语句来实现,而这种方式也需要用户录入较多的检索词,很不方便用户的使用。
为了得到更多的信息,对单一检索词,通常的做法就是将SQL语句的条件表达式改为模糊检索方式,并将检索词进行拆分,如:对“硫铁矿”可以拆分成条件表达式“矿物名称 LIKE‘%硫%’”、“矿物名称 LIKE‘%铁%’” 和“矿物名称 LIKE‘%矿%’”,然后将这些条件表达式构造为检索语句在数据库中进行检索,最后将检索结果通过UNION连词合并起来。这种检索方式又将会检索出大量的与用户的期望不相关的信息,用户需要花费大量的时间来自行筛选和判断,也就是说,信息量很大,但相关度却很低。另一种方法就是采用分词技术来解析检索词,如将“硫铁矿”解析为“硫铁矿”和“铁矿”,而将“锰铁矿”解析为“锰铁矿”和“铁矿”,然后再进行模糊检索。但是很多专业术语并没有统一的规律可循,如“钛精矿”,如果解析为“钛精矿”和“精矿”显然不合适。同时,使用模糊检索方式,数据库系统在检索时将会扫描文本性字段,如果过多使用模糊检索将会导致系统的检索性能下降。
发明内容
针对上述问题,本发明提供了一种提高数据库检索信息相关度的方法,包括如下步骤:
(A)建立概念树:利用所属领域的概念间内在的关联因素建立概念树,所述概念树分为多层,第一层为根结点,除根结点外,概念树中的每一结点至少包括一个或一个以上的数据库表中检索字段的值以及权值;
(B)在概念树中搜索用户检索词,以得到更多相关检索词:当获取用户输入的检索词后,在所述概念树中按照一定的策略搜索检索字段的值,如果存在该结点检索字段的值与检索词相匹配,则按规则将该结点及其相关结点插入一个结点列表中,完成搜索后,返回该结点列表;
(C)生成查询条件表达式:若返回的结点列表不为空,则顺序遍历结点列表中的结点,将检索字段的值与检索词相匹配的字段按“字段名=字段值”组成表达式,多个表达式之间用逻辑连词“OR”进行连接。当遍历完整个结点列表后,生成一个完整的SQL查询条件表达式,执行下一步骤(D),若返回的结点列表为空,则返回空的最终的检索结果;
(D)检索数据库:根据生成的查询条件表达式,进一步生成完整的SQL查询语句,提交给数据库进行检索并返回结果集;
(E)检索结果重新排序:对结果集在内存中按结点列表中结点的权值重新进行排序,并返回最终的检索结果,清空结点列表。
步骤(B)中,若概念树为n层,为提高检索信息的相关度,所述搜索策略为:先搜索第n层,即先搜索叶结点,若搜索完第n层,有检索字段的值与检索词相匹配的结点,按规则插入结点列表,并返回结点列表,结束搜索;若没有搜索到,则继续搜索第n-1层,以此类推,直到搜索到第1层的根结点,则表明搜索失败,返回空的结点列表。
步骤(B)中,为量化相关度,依据概念树的层数,引入相关度参数,在所述结点列表中插入搜索到的结点及其相关结点的规则是通过相关度参数来决定的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310129209.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置