[发明专利]文本检索方法及系统有效
申请号: | 201410152090.6 | 申请日: | 2014-04-15 |
公开(公告)号: | CN103927358B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 田凌;马嵩华 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检索 方法 系统 | ||
技术领域
本发明涉及数据智能处理分析技术领域,特别涉及一种文本检索方法及系统。
背景技术
对于文本搜索和分类目录的检索,目前的主要方式是根据检索对象的关键词确定是否匹配,即将检索语句分割成关键词的形式分别进行检索,但是机器不能理解人类的语言,因此不能理解查询意图,从而导致搜索出的信息不够准确。比如搜索“美国黑人总统”,检索意图获得“奥巴马”,结果却是包含“美国”、“黑人”、“总统”等等的关键词。并且实际检索语句基本上仅仅包括一两个关键词,不考虑语义,难以应对同一关键词具有不同含义或不同关键词具有相同含义的问题,使得计算机很容易造成误解,因此只能部分提高查准率和查全率。比如搜索“苹果”这个关键词,结果包含电影“苹果”、水果“苹果”和企业“苹果”等等。针对上述问题,用户在搜索时可以加入高级语法进行操作,但高级语法输入复杂对用户要求高,使得用户体验度降低。
基于语义的搜索通过为每个信息实例加上各式各样的标签,不再拘泥于用户所输入请求语句的关键词本身,而能够较为准确地捕捉到用户所输入语句潜在的意图,从而能更准确地向用户返回最符合其需求的结果。目前,通过词汇相关性的同义词检索技术己经比较成熟。同义词检索算法是对利用词库搜索范围内的每一个相关词进行匹配运算以得到一个最优的结果,但这种匹配无法表达词汇的分类、参考等复杂关系,同时也没有动态推理特征。
语义检索能够懂关键词之间的逻辑关系,大大提高了检索效率,但是目前语义的研究过于繁琐,往往难以和现行技术结合到一起。到目前为止对语义检索在概念上仍没有统一的界定,因此基于本体的语义检索大多停留在理论研究,真正实例很少。
发明内容
本发明旨在至少解决上述的技术问题之一。
为此,本发明的一个目的在于提出一种文本检索方法,该方法通过本体词汇的相互关联,能有效地对文本内容进行领域知识提取,提高了搜索引擎检索文本时的查全率和查准率。
本发明的另一个目的在于提供一种文本检索系统。
为了实现上述目的,本发明第一方面的实施例提出了一种文本检索方法,包括以下步骤:根据输入的查询语句,将所述查询语句拆分为关键语义与关键词;根据所述关键语义进行基于领域本体的语义扩展以生成扩展语义,并根据所述扩展语义和所述关键词生成扩展查询语句;对所述扩展语义进行相似度评分并对所述扩展查询语句进行语义加权,并对所述扩展查询语句进行文本检索以得到相应的查询结果;以及显示检索后的所述查询结果。
根据本发明实施例的文本检索方法,在进行文本检索时,首先将输入的查询语句拆分为关键语义与关键词,并根据关键语义进行基于领域本体的语义扩展以生成扩展语义,结合扩展语义和关键词生成扩展查询语句,并进一步对扩展查询语句进行语义加权,以及对该扩展查询语句进行概念检索以得到相应的查询结果,最后显示检索后的查询结果。因此,本发明实施例的方法充分利用领域本体与查询关键语义的对应关系,根据相关词汇的语义关系,领域本体限制了查询文本的主题,获取准确率高的查询结果;同时构造语义扩展的查询语句对文本知识库进行搜索,从而可以有效地提高查全率。
另外,根据本发明上述实施例的文本检索方法还可以具有如下附加的技术特征:
在一些示例中,所述查询语句为多个所述关键语义与所述关键词的逻辑组合,其中,所述逻辑组合包括:或、且、非逻辑关系。
在一些示例中,所述领域本体由概念集合、关系集合、实例集合以及事实集合组成。
在一些示例中,所述关键语义的集合即是所述领域本体中的所述概念集合。
在一些示例中,所述关系集合包括:等同关系,所述等同关系含有概念相同或用法相同的对称关系,用于增加检索入口;继承关系,所述继承关系包含属种、整部和多层级关系,用于扩大和缩小查找范围;以及属性关系,所述属性关系用于扩大检索范围和进行隐式信息查找。
在一些示例中,所述对所述扩展语义进行语义相似性评分并对所述扩展查询语句进行语义加权,包括:根据领域本体的局部密度、所述概念的深度、所述概念的关系以及所述概念之间的连系强度,计算所述概念之间的边权;根据所述边权,计算所述概念之间的语义距离;根据所述语义距离,计算所述概念之间的所述语义相似性评分;以及将所述语义相似性评分作为所述扩展查询语句的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410152090.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双温双波段红外辐射精确测温方法
- 下一篇:电动机和指示器插孔