[发明专利]基于自动分类技术的特定信息搜索方法无效

申请号：	200810036369.2	申请日：	2008-04-21
公开（公告）号：	CN101261629A	公开（公告）日：	2008-09-10
发明（设计）人：	孟浩华;曾雪强;李国正	申请（专利权）人：	上海大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海上大专利事务所	代理人：	何文欣
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于自动分类技术特定信息搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明内容是一种针对特定专业领域的信息搜索方法，涉及基于倒排表的全文检索和文本自动分类等相关技术。

背景技术

Internet的爆炸式发展，使网络上的各种信息资源越来越丰富，但也给人们在网络上获取资源带来了难度，人们很难在纷絮复杂的信息海洋中便捷地找到需要的信息。搜索方法正是为解决广大网络用户这一实际问题而出现的。一般而言，搜索方法是一种在万维网上的应用系统，它接收用户提交的信息需求，试图让用户在有限的时间内得到与其需求最相关的信息。

如今Internet上常用的搜索方法有Yahoo、Google、百度等等。但这些通用方法引擎搜集的策略没有考虑到用户对于特定信息的特殊需求，即很难做到精确化和专业化。一般情况下，通用搜索方法查询的结果中绝大部分都是与用户需求不相关的网页。基于这一缺陷，越来越多的专业搜索产品也不断地涌现，比如音乐搜索，歌词搜索，图片搜索，视频等多媒体文件的搜索等。

但大部分专业搜索方法都是基于文件类型或其他特定领域的专业知识，尚未出现一种能针对任意给定领域的特定信息搜索方法构建技术。

发明内容

本发明的目的在于提供一种能针对任意特定领域的基于自动分类技术的特定信息搜索方法，通过较为成熟的文本分类模型判别出Internet中真正包含特定领域信息的网页，建立基于倒排表的全文索引库存储这些网页，并向用户提供基于全文检索的专业搜索接口。

为了实现这个目的，本发明采用下述技术方案：一种基于自动分类技术的特定信息搜索方法，其特征在于首先通过网络蜘蛛(spider)收集一些典型的网页构成训练文档集合，再对训练集合中的网页进行人工标注(领域相关网页或领域非相关网页)，然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器；接着，再通过网络蜘蛛大量收集该领域相关网页(利用前面建立的自动分类器判别网页是否该领域相关网页)，并建立基于倒排表的全文索引库将这些相关网页保存下来；最后，提供一个检索接口，方便用户从全文索引库中查询出该领域相关网页；

具体操作包含以下三个模块：分类器训练模块、网页采集及索引模块和信息检索模块。

上述的分类器训练模块的功能是得到一个能够自动判别网页是否是“领域相关”的自动分类模块，其相应的流程图见图1；

具体步骤如下：

a)通过网络蜘蛛采集一定数量有代表性的训练网页；

b)对网页进行人工标注；请该领域的相关人员，将网页分为“领域相关网页”和“领域非相关网页”两类(由于只是简单的两类标注，对该领域相关人员的要求并不高)；

c)对网页进行预处理，建立基于向量空间模型的训练文档矩阵；具体的处理操作包括，去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量；

d)分类器训练；采用分类准确度较高的Support Vector Machine(SVM)分类模型进行分类器训练(SVM分类器是一种在机器学习领域广泛采用的分类模型，在充分训练的情况下的分类准确率可以达到90％以上)；

e)分类模型保存；保存分类器参数以及建立文档向量时所需的相关信息。

上述的网页采集及索引模块的功能是得到一个领域相关网页的基于倒排表的全文索引库，为用户的信息检索提供数据来源，其相应的流程图见图2；

具体步骤如下：

a)通过网络蜘蛛采集海量网页；为网络蜘蛛设定一些特定的网页作为起始搜索页面，网络蜘蛛读取这些起始页面的内容并抽取出其中的超链接地址，然后通过这些链接地址寻找下一个页面，这样一直循环下去，直到触发某种终止条件而停止网页采集；

b)对采集的网页进行预处理，建立向量空间模型下的文档向量；具体的操作包括，去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量(需要用到训练过程中建立文档向量矩阵的相关信息)；