[发明专利]基于自动分类技术的特定信息搜索方法无效
| 申请号: | 200810036369.2 | 申请日: | 2008-04-21 |
| 公开(公告)号: | CN101261629A | 公开(公告)日: | 2008-09-10 |
| 发明(设计)人: | 孟浩华;曾雪强;李国正 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海上大专利事务所 | 代理人: | 何文欣 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 自动 分类 技术 特定 信息 搜索 方法 | ||
1.一种基于自动分类技术的特定信息搜索方法,其特征在于首先通过网络蜘蛛收集一些典型的网页构成训练文档集合,再对训练集合中的网页进行人工标注领域相关网页或领域非相关网页,然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器;接着,再通过网络蜘蛛大量收集该特定领域相关网页,利用前面建立的自动分类器判别网页是否该领域相关网页,并建立基于倒排表的全文索引库将这些相关网页保存下来;最后,提供一个检索接口,方便用户从全文索引库中查询出该领域相关网页;具体操作包含以下三个模块:分类器训练模块、网页采集及索引模块和信息检索模块。
2.根据权利要求1所述的基于自动分类技术的特定信息搜索方法,其特征在于所述的分类器训练模块的功能是得到一个能够自动判别网页是否是“领域相关”的自动分类模块,具体步骤如下:
a)通过网络蜘蛛采集一定数量有代表性的训练网页;
b)对网页进行人工标注;请该领域的相关人员,将网页分为“领域相关网页”和“领域非相关网页”两类;
c)对网页进行预处理,建立基于向量空间模型的训练文档矩阵;具体的处理操作包括:去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量;
d)分类器训练;采用分类准确度较高的SVM分类模型进行分类器训练;
e)分类模型保存;保存分类器参数以及建立文档向量时所需的相关信息。
3.根据权利要求1所述的基于自动化分类技术的特定信息搜索方法,其特征在于所述的网页采集及索引模块的功能是得到一个领域相关网页的基于倒排表的全文索引库,为用户的信息检索提供数据来源;具体步骤如下:
a)通过网络蜘蛛采集海量网页;为网络蜘蛛设定一些特定的网页作为起始搜索页面,网络蜘蛛读取这些起始页面的内容并抽取出其中的超链接地址,然后通过这些链接地址寻找下一个页面,这样一直循环下去,直到触发某种终止条件而停止网页采集;
b)对采集的网页进行预处理,建立向量空间模型下的文档向量;具体的操作包括,去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量;
c)对采集的网页进行判别;利用“分类器训练模块”建立的SVM分类模型,对文档向量进行判别,丢弃判别为“领域非相关”的网页,只保留其中判别为“领域相关”的网页;
d)建立全文索引库;构建基于倒排表技术的全文索引库,保存“领域相关”的网页;为了适应海量信息保存的需要,采用开源的全文索引引擎工具Lucene建立索引数据库。
4.根据权利要求1所述的基于自动分类技术的特定信息搜索方法,其特征在于所述的信息检索模块的功能是为用户提供一个进行特定领域信息检索的接口,从全文索引库中查询出该领域相关的网页呈现给用户;具体步骤如下:
a)用户提供查询条件;用户在系统提供的WEB查询接口输入查询条件;
b)查询条件分析处理;包括查询条件的分隔,“非、与、或”组合条件的分析处理步骤,最终得到一个处理后的查询条件;
c)全文检索;根据给定的查询条件,在全文索引库中查询符合条件的网页;查询方式包括传统的关键字匹配和基于同义词扩展的语义查询;
d)结果呈现;将检索到的相关网页按照相关度排序,以列表方式在网页中呈现给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810036369.2/1.html,转载请声明来源钻瓜专利网。





