[发明专利]一种基于智能搜索的福富企业搜索引擎技术无效
| 申请号: | 201010550786.6 | 申请日: | 2010-11-19 |
| 公开(公告)号: | CN102004775A | 公开(公告)日: | 2011-04-06 |
| 发明(设计)人: | 黄震奇;江勇;林乐然;罗志伟;陈华光 | 申请(专利权)人: | 福建富士通信息软件有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 350013 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 搜索 企业 搜索引擎 技术 | ||
技术领域
针对传统的信息检索方式存在的不足,本发明提供多种搜索策略,实现高效、准确的搜索功能。系统既支持传统搜索技术,又支持诸如概念搜索、精炼搜索、多语种混合检索等功能。实现企业信息管理的自动化。
技术背景
随着企业信息化的逐步普及,企业拥有越来越多的、各式各样的电子文件和数据信息,面临“信息爆炸”的挑战,交易中的数据每年增长的速度达到61%,而其他各种相关信息的每年增长率甚至超过92%。在过去十年里,磁盘阵列上存储的信息年复合增长速度达到了60%,而且这个速度预计将持续到2010年。2006年所创建、存储及复制的数字信息总量达到了1610亿GB,相当于有史以来全部书籍信息量的300万倍。预计到2010年,这个数字将增长到9880亿GB。如何将这些信息成为企业业务发展甚至是战略决策的好帮手,是CIO们正在思考的问题。而企业搜索技术就提供了一种有效的方式,来帮助企业处理这些日益增长的数据和信息。
然而,目前的搜索系统相对独立,个系统之间资源不能共享,这成为企业管理信息化建设进一步发展所面临的巨大挑战,福富企业搜索引擎实现了不同平台间资源共享的功能,而智能搜索技术是实现这一功能的关键。
发明内容
技术问题:本发明是在各业务系统基础上,实现统一的搜索平台功能,建立企业级的信息搜索平台,实现跨系统、跨平台的综合搜索。根据企业管理者及员工关注热点主动搜索,并能将搜索结果按不同来源和类型在系统上展现。该平台须具备模糊查询、高级搜索、支持中文语义分词等智能搜索功能。
技术方案:
综合搜索平台系统框架设计
福富企业搜索引擎的业务框架可以分为三层,分别是数据采集、综合搜索以及业务展示。整个系统的业务结构如说明书附图1所示:
其中综合搜索位于整个业务结构中的中间层。它负责采集各中数据源的数据,经过索引处理后将数据保存到中心数据库,并通过搜索功能和智能处理模块帮助用户精准的定位所需数据。
如说明书附图2所示,整个搜索引擎系统包含为7大部分:
●数据源
●数据采集层
●数据索引层
●中心数据库
●数据检索层
●智能管理模块
●应用展示接口
根据数据来源可以将数据分为三大类:关系型数据库数据、网页数据和文件系统数据。对于不同的数据类型,针对性的采用不同的技术来实现数据的采集。
数据索引
数据采集结束后,搜索引擎根据预先设置的索引策略对这些数据进行索引,以便在后续提供高效、准确的全文检索服务。
对于采集到的网页等信息对象,先要进行一定的智能处理,然后再建立索引。
数据整合
●正文内容提取
通过结构分析的方法确定信息对象的正文、图片以及表格内容,自动剔除广告、导航信息等与主体信息无关的信息。
●格式自动转换
自动将HTML等格式转换为TEXT文件,方便再加工
●属性自动标引
对信息对象分析出单位名称、系统名称、标题、版次、日期、作者、栏目、分类等属性,分析并标注这些属性信息(元数据自动提取)
●内码自动转换
对于网页等信息对象中可能会包含的多种中文内码(比如繁体Big5,简体GB2312、GBK,Unicode等),转换成统一的中文内码,以便统一管理
中文分词
分词系统是实现中文智能检索的基础,是全文数据库和其他模块功能实现的重要基础。福富企业搜索引擎采用先进的中文分词技术,基于内嵌汉语自动分词系统分词词典,实现信息检索领域领先的分词效果。
建立索引
随着所采集的数据集的增大,索引就成为一种关键的工具。索引是通往数据的快捷路径。通过为每一个要建索引的列值生成一个惟一或者半惟一的键,并将之存储起来。然后在内部将这些键组织到一棵树中,以便尽可能地减少查找某一特定键和特定行时所需的步骤。
福富企业搜索支持按字索引、按词索引、按关键词索引等索引策略,能够适应不同应用环境的需求。在存储空间方面,福富企业搜索实现了高效的数据和索引压缩,实现了低空间膨胀率(一般介于-0.2~1.0之间)。数据索引主要有以下几部分实现内容:
按词索引
按词索引是实现智能概念检索的基础。由于所有辅助知识词典(如主题词典、同义词典、反义词典等)都是基于词的,而不是基于字的,所以只有按词索引,才能进行概念检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建富士通信息软件有限公司,未经福建富士通信息软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010550786.6/2.html,转载请声明来源钻瓜专利网。





