[发明专利]基于自然语言的全文检索系统无效
申请号: | 200810046936.2 | 申请日: | 2008-02-26 |
公开(公告)号: | CN101246492A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 张茂元;邹春燕;赵冰心;卢正鼎;刘明;余毅;杨付全 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/20 |
代理公司: | 华中科技大学专利中心 | 代理人: | 曹葆青 |
地址: | 430074湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于自然语言理解的全文检索系统,该系统包括数据库服务器、信息接收判断模块、自然语言处理模块、检索模块、索引模块、索引库和结果集处理模块。本发明系统针对当前搜索引擎智能化水平较低的情况提出了两种解决策略——语义分析与自动切分相结合的分词策略和依据知网规则的扩展查询词策略。部署后的系统将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解和处理能力,能够运用分词技术、同义词技术、概念搜索、短语识别等技术。本搜索引擎具有信息服务的智能化、人性化特征,允许检索者采用自然语言进行信息的检索,在交互操作模式下,可以加入用户选择行为,从而提供更方便、更确切的搜索服务。 | ||
搜索关键词: | 基于 自然语言 全文 检索系统 | ||
【主权项】:
1、一种基于自然语言理解的全文检索系统,其特征在于:该系统包括数据库服务器(100)、信息接收判断模块(200)、自然语言处理模块(300)、检索模块(400)、索引模块(500)、索引库(600)和结果集处理模块(700);数据库服务器(100)用于存储知识数据词典,规则库、文本文件集和索引库(600)以及操作信息;为自然语言处理模块(300)提供数据资源和管理服务,为索引模块(500)提供纯文本文件;信息接收判断模块(200)根据用户的选择为系统中的自然语言处理模块(300)部署任务,或者直接请求检索模块(400)进行搜索服务;自然语言处理模块(300)依赖于数据库服务器(100)提供的知识数据词典和规则库,并从信息接收判断模块(200)获得部署的任务;自然语言处理模块(300)根据部署任务选择下述三种方式之一进行语言处理:第一种方式是对用户的检索命令进行语义分析与自动切分相结合的分词处理,分割出查询词传给检索模块(400)进行搜索;第二种方式是依据知网的规则把查询词从概念上扩展成对应的同义词、近义词,通过概念扩展及同义近义词相似度算法抽取部分扩展词或接收用户选择的扩展词,把查询词和限定的扩展词一起作为查询条件传给检索模块(400)进行搜索;第三种方式是将上述二种方式结合,把综合处理后的查询内容提交给检索模块(400);检索模块(400)为用户提供搜索引擎的使用界面,并提供完备的搜索服务;检索模块(400)负责接收信息接收判断模块(200)的指令和自然语言处理模块(300)递交的处理结果,根据查询语句在索引库(600)中进行查询匹配,返回和查询语句匹配的所有文档信息,根据关键词和扩展词在文档中的集中程度对结果集进行排序处理,将排序后的结果集交给结果集处理模块(700)处理;索引模块(500)用于接收数据库服务器(100)提供的纯文本文件的内容和相关信息,对文本内容、标题和自定义信息处理得到索引词,利用索引词和文档相关信息建立索引库;索引库(600)用于存储由索引模块(500)对文本文件建立的索引;索引库(600)还根据检索模块(400)提交的查询请求在索引中进行快速检索和排序,并返回检索模块(400)对应的结果;结果集处理模块(700)用于接收来自检索模块(400)的结果集,并根据索引库(600)的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显、分页处理并将用户查看快照信息的记录存储于数据库(100)中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810046936.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种轴系动平衡实验台
- 下一篇:制造金属外壳的方法及系统