[发明专利]一种基于智能搜索的福富企业搜索引擎技术无效

专利信息
申请号: 201010550786.6 申请日: 2010-11-19
公开(公告)号: CN102004775A 公开(公告)日: 2011-04-06
发明(设计)人: 黄震奇;江勇;林乐然;罗志伟;陈华光 申请(专利权)人: 福建富士通信息软件有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 350013 福建*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 智能 搜索 企业 搜索引擎 技术
【说明书】:

技术领域

针对传统的信息检索方式存在的不足,本发明提供多种搜索策略,实现高效、准确的搜索功能。系统既支持传统搜索技术,又支持诸如概念搜索、精炼搜索、多语种混合检索等功能。实现企业信息管理的自动化。 

技术背景

随着企业信息化的逐步普及,企业拥有越来越多的、各式各样的电子文件和数据信息,面临“信息爆炸”的挑战,交易中的数据每年增长的速度达到61%,而其他各种相关信息的每年增长率甚至超过92%。在过去十年里,磁盘阵列上存储的信息年复合增长速度达到了60%,而且这个速度预计将持续到2010年。2006年所创建、存储及复制的数字信息总量达到了1610亿GB,相当于有史以来全部书籍信息量的300万倍。预计到2010年,这个数字将增长到9880亿GB。如何将这些信息成为企业业务发展甚至是战略决策的好帮手,是CIO们正在思考的问题。而企业搜索技术就提供了一种有效的方式,来帮助企业处理这些日益增长的数据和信息。 

然而,目前的搜索系统相对独立,个系统之间资源不能共享,这成为企业管理信息化建设进一步发展所面临的巨大挑战,福富企业搜索引擎实现了不同平台间资源共享的功能,而智能搜索技术是实现这一功能的关键。 

发明内容

技术问题:本发明是在各业务系统基础上,实现统一的搜索平台功能,建立企业级的信息搜索平台,实现跨系统、跨平台的综合搜索。根据企业管理者及员工关注热点主动搜索,并能将搜索结果按不同来源和类型在系统上展现。该平台须具备模糊查询、高级搜索、支持中文语义分词等智能搜索功能。 

技术方案: 

综合搜索平台系统框架设计 

福富企业搜索引擎的业务框架可以分为三层,分别是数据采集、综合搜索以及业务展示。整个系统的业务结构如说明书附图1所示: 

其中综合搜索位于整个业务结构中的中间层。它负责采集各中数据源的数据,经过索引处理后将数据保存到中心数据库,并通过搜索功能和智能处理模块帮助用户精准的定位所需数据。 

如说明书附图2所示,整个搜索引擎系统包含为7大部分: 

●数据源 

●数据采集层 

●数据索引层 

●中心数据库 

●数据检索层 

●智能管理模块 

●应用展示接口 

根据数据来源可以将数据分为三大类:关系型数据库数据、网页数据和文件系统数据。对于不同的数据类型,针对性的采用不同的技术来实现数据的采集。 

数据索引 

数据采集结束后,搜索引擎根据预先设置的索引策略对这些数据进行索引,以便在后续提供高效、准确的全文检索服务。 

对于采集到的网页等信息对象,先要进行一定的智能处理,然后再建立索引。 

数据整合 

●正文内容提取 

通过结构分析的方法确定信息对象的正文、图片以及表格内容,自动剔除广告、导航信息等与主体信息无关的信息。 

●格式自动转换 

自动将HTML等格式转换为TEXT文件,方便再加工 

●属性自动标引 

对信息对象分析出单位名称、系统名称、标题、版次、日期、作者、栏目、分类等属性,分析并标注这些属性信息(元数据自动提取) 

●内码自动转换 

对于网页等信息对象中可能会包含的多种中文内码(比如繁体Big5,简体GB2312、GBK,Unicode等),转换成统一的中文内码,以便统一管理 

中文分词 

分词系统是实现中文智能检索的基础,是全文数据库和其他模块功能实现的重要基础。福富企业搜索引擎采用先进的中文分词技术,基于内嵌汉语自动分词系统分词词典,实现信息检索领域领先的分词效果。 

建立索引 

随着所采集的数据集的增大,索引就成为一种关键的工具。索引是通往数据的快捷路径。通过为每一个要建索引的列值生成一个惟一或者半惟一的键,并将之存储起来。然后在内部将这些键组织到一棵树中,以便尽可能地减少查找某一特定键和特定行时所需的步骤。 

福富企业搜索支持按字索引、按词索引、按关键词索引等索引策略,能够适应不同应用环境的需求。在存储空间方面,福富企业搜索实现了高效的数据和索引压缩,实现了低空间膨胀率(一般介于-0.2~1.0之间)。数据索引主要有以下几部分实现内容: 

按词索引 

按词索引是实现智能概念检索的基础。由于所有辅助知识词典(如主题词典、同义词典、反义词典等)都是基于词的,而不是基于字的,所以只有按词索引,才能进行概念检索。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建富士通信息软件有限公司,未经福建富士通信息软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010550786.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top