[发明专利]一种数据库检索系统中确定检索词的方法及装置有效
申请号: | 201310312139.5 | 申请日: | 2013-07-24 |
公开(公告)号: | CN103336850A | 公开(公告)日: | 2013-10-02 |
发明(设计)人: | 张利波;刘明;彭金辉;刘秉国;刘晨辉;杨彪;许磊 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据库 检索系统 确定 检索 方法 装置 | ||
技术领域
本发明涉及一种数据库检索系统中确定检索词的方法及装置,属于数据库检索技术领域。
背景技术
在传统的关系型数据库中,往往采用SQL语句来检索数据库,对于中文字段的记录,检索数据库时,用户输入的中文检索词有时会存在拼写输入错误的情况,如检索矿物名称“钛铁矿”,如果用全拼输入法,可能会将检索词输入成“太铁矿”,就存在拼写纠错的问题,除了拼写错误外,还有可能存在其它的一些输入不完整或误输入的情况。SQL语句自身没有对检索词修正的功能,仅提供了精确和模糊(Like)两种检索方式。因此需要在系统中提供修正检索词的功能,对检索词进行修正,或者说是对检索词进行容错处理,否则将可能检索不到任何信息而使得用户满意度下降。目前多数搜索引擎都提供了拼写纠错的功能,如在百度上搜索“太铁矿”,搜索引擎系统就会提示“您要找的是不是:钛铁矿”。针对搜索引擎,通常采用概率字符串匹配算法,往往需要大量的概率统计的计算,导致处理过于复杂,而消耗较多的资源,不适合应用于专业领域数据库的检索系统中,也有根据编辑距离来纠正检索词中错误的方法,但这种方法不太适合中文检索词的修正。目前,在专业领域数据库检索系统中,对于中文检索词,多数情况采用拼音输入法,同音字输入错误是比较普遍的现象。
对检索词的修正,还需要考虑用户的一些使用习惯,这样有助于检索词的修正或容错。由于简拼码比较快捷,用户在进行检索时,也比较喜欢使用简拼码,目前多数搜索引擎都提供了对简拼码的支持,一般采用在下拉列表中列出与简拼码相关的检索频率较高的几个中文检索词提供给用户选择,然后再根据选择的中文检索词进行搜索的方法,而如果直接用简拼码搜索时,返回的检索结果往往很达到用户的预期。在专业领域的数据库系统中,一般采用专业术语来检索数据库,其检索词的范围远远小于互联网搜索引擎的要处理的海量数据,如果支持简拼码直接检索数据库,将为用户的使用提供极大的方便。另外,在专业领域中,还有研究者习惯采用英文进行检索,如果能够支持中英文混合检索,将更加方便用户的使用。
如果要满足用户的这些需求,在业务记录表中增加英文字段、简拼码字段以及全拼码字段等,这样必然导致过多的数据冗余,将带来很多负面影响:首先,数据记录的维护变得复杂;在检索数据库时,将这些字段组合成表达式,将可能导致查询表达式变得十分复杂而非常不利于数据库系统的优化并且无法进行容错处理;同时,为提高检索速度,需要对这些字段建立索引,这样也将使数据库系统维护索引过多而带来较大的开销。另外,现有技术对检索词修正处理和数据库的检索往往是分离的,要么强调检索词的修正或容错处理,而不考虑应用背景和实际需求,使得容错处理的分析、计算过于复杂而导致实用性较差;要么强调检索速度而忽略对检索词的修正处理,使得检索系统的用户体验较差,也就是说现有技术对用户多样化的需求、检索速度与容错处理等方面缺乏综合平衡的考虑。
发明内容
本发明要解决的技术问题是针对现有技术的上述缺陷,提供了一种数据库检索系统中确定检索词的方法。
本发明的技术方案是:一种数据库检索系统中确定检索词的方法,包括如下步骤:
S11、建立词汇表,所述词汇表至少包括中文名、英文名、全拼码、简拼码;
S12、获得用户输入的检索词后,对所述检索词进行预处理,包括:判断检索词是否为中文检索词和清除检索词中的非法字符,若为中文检索词,执行步骤S13,若不为中文检索词,则执行步骤S14;
S13、检索数据库,如果返回结果集不为空,则结束检索,如果返回结果集为空,则执行步骤S14;
S14、生成所述检索词的全拼码、简拼码、英文名及中文名等,遍历词汇表并计算所述检索词的全拼码、简拼码、英文名及中文名等与词汇表中对应项的匹配度;
S15、根据匹配度及设定的阈值确定新的检索词,并利用所述新确定的检索词重新检索数据库。
优选的,所述检索词分为三类,包括:中文检索词、英文检索词和混合检索词,其中,中文检索词中仅包括中文字符,英文检索词中仅包括英文字符,其余为混合检索词;中文检索词的中文名为检索词自身,英文名为空字符串;英文检索词的英文名为检索词自身,中文名为空字符串;混合检索词的中文名、英文名为检索词自身。
优选的,检索词的中文名、英文名、全拼码、简拼码等的匹配度,是根据检索词该项中的字符与词汇表中对应项字符的匹配个数与它们中的最长的字符串长度的比值来度量的,其匹配度CD定义为:
CD=
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310312139.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:刃具数量清单装置
- 下一篇:具有隐形功能的飞行器