[发明专利]一种基于模糊遗传算法的中文WEB信息过滤方法无效

申请号：	201010106201.1	申请日：	2010-02-05
公开（公告）号：	CN101814086A	公开（公告）日：	2010-08-25
发明（设计）人：	刘培玉;朱振方	申请（专利权）人：	山东师范大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/12
代理公司：	济南圣达专利商标事务所有限公司 37221	代理人：	邓建国
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模糊遗传算法中文 web 信息过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于模糊遗传算法的中文WEB信息过滤方法，属于信息技术领域。

背景技术

WEB信息过滤是文本过滤的重要组成部分，TREC-9给出了文本过滤的任务定义：根据给定的用户需求，建立一个能从文本流中自动选择最相关文本的过滤模板，随着文本流的逐渐进入，过滤系统自动地接受或拒绝文本，并得到文本相关与否的反馈信息，根据反馈信息自适应地修正过滤模板。

基于内容的过滤是当前WEB信息过滤研究的主要方向，而在基于内容的信息过滤中，最重要的是应用学习算法构建过滤模板。当前常用的算法包括贝叶斯、支持向量机以及KNN等，这些分类和学习算法在一定程度上解决了模板生成过程中的学习问题，但是同时也存在一些问题。例如，贝叶斯分类系统无法在没有先验知识的情况下加以判断和学习，KNN存在当数据量较大时分类精度和最近的样本点数量取值依赖较大、实施起来复杂度仍然相对较大、单分类器分类精度较低等问题，支持向量机存在训练速度慢、时间空间复杂度大的问题等问题。

遗传算法是一种能在全局范围内产生最优解的搜索算法，它具有自组织、自适应、自学习的特性，而且不受搜索空间限制、不需要其他辅助信息，因此被广泛应用于解决优化问题。而文本分类和信息过滤中模板的生成过程就是一个不断寻找能够代表相关类别的特征集的过程。

发明内容

本发明的目的就是为了解决上述问题，把遗传算法引入到WEB信息过滤系统中用于训练分类器，进行WEB信息过滤，建立基于遗传算法的WEB信息过滤模型，并针对模型中存在的问题提出了一系列改进措施。

为实现上述目的，本发明采用了如下技术方案：

一种基于模糊遗传算法的中文WEB信息过滤方法，所述过滤方法包括如下步骤：

Step1：利用文本训练集，采用模糊遗传算法简历过滤模版；

Step3：截获WEB数据包并解析，从中提取有效的文本信息；

Step3：在获取的有效信息中提取网址信息、关键词信息以及中文域名信息，应用URL过滤、关键词过滤以及内容过滤的三层过滤机制进行初步过滤，返回过滤结果；

Step4：将Step3中没有过滤掉的文本信息进行切词、去除停用词处理，并进行层次聚类，形成基于概念的逻辑段落，并计算特征项权重；

Step5：将Step4中的处理结果同过滤模版进行相似度匹配，返回匹配结果；

Step6：综合Step3的过滤结果以及Step5中的匹配结果，确定所获取的文本信息是否被过滤，并将为被过滤的信息重组为网页提交给用户，将被过滤的网页信息直接屏蔽；

Step7：利用反馈方法、结合用户反馈信息对过滤结果进行反馈，更新Step5中的过滤模板。

所述Step1中的模糊遗传算法主要分为种群、交叉率和变异率的模糊调整三部分：

(1)使用下面的公式计算个体寿命：

其中lifetime[i]为第i个个体的寿命，fitness[i]，avg_fitness，best_fitness和wrost_fitness分别为第t代中第i个个体的适应度值、种群的平均适应度值、种群中最好适应度值和种群中最差适应度值，max_lifetime，min_lifetime分别为在允许空间内预先设置的最大寿命、最小寿命；

(2)使用下面的公式动态计算交叉率：

temp＝max_pc×2^(-t/max_gen)

其中temp是中间计算变量，max_gen是预设的最大进化代数，max_pc，min_pc分别是预设的最大交叉率、最小交叉率，t是当前进化代数；

(3)使用下面的公式计算变异率：

X=-|max_fitness-fitness[i]max_fitness|]]>