[发明专利]基于遗传算法的网络文本分割方法有效
申请号: | 200910219163.8 | 申请日: | 2009-11-26 |
公开(公告)号: | CN101710333A | 公开(公告)日: | 2010-05-19 |
发明(设计)人: | 蔡皖东;赵煜 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/12 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 黄毅新 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 遗传 算法 网络 文本 分割 方法 | ||
1.一种基于遗传算法的网络文本分割方法,其特征在于包括以下步骤:
(a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本 信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建 扩展语料库;
(b)采用层次聚类方法对扩展语料库进行聚类,确定子主题的数目,采用Gibbs采样方 法估计扩展语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距 是2000,thinning间距是100;
(c)对待分割文本进行分词、词性标注、命名实体识别、词义消歧的文本预处理,统计 文本中名词、动词的频率,选择高频词汇作为文本的特征词汇;再根据HowNet,计算文本的 特征词汇与扩展语料库的特征词汇之间的相似度,选取相似度最大值对应的语料库为文本分 割的外部语料库;最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割 文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割 单元中的概率;词汇所属子主题的类型用于待分割文本的表示,以句子为单位统计每个词汇 所属的子主题类型,句子表示为子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sjj表示句子j中词 汇属于子主题j的频率;
(d)利用并行遗传算法进行文本分割,算法编码方案采用二进制编码方案,种群初始化 采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指 标,过滤不合格的初始个体;根据公式
计算语义段落内的凝聚性;式中,|bn|表示第n个语义段落中包含的句子数,an表示语义段落对应的平均向量,anl是该向量的第l个分量;
根据公式
计算语义段落间的发散性;式中,
根据语义段落内的凝聚性和语义段落间发散性计算遗传迭代中每个个体的适应度函数 值,计算公式如下:
式中,表示扩展种群,用于存储迭代中的最优解;
种群选择过程中,首先采用精英保留策略,保留种群及扩展种群中的精英个体,直接进 入下一代进化;然后采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适 应度值,选择适应度小的个体进行交叉和变异操作;
交叉过程采用单点交叉方法,为了防止近亲繁殖,当个体间汉明距离超过阈值时,才允 许在种群和扩展种群之间进行交叉操作,阈值设置为个体间平均汉明距离的20%;根据种群 的相似度自适应调节变异算子;种群的相似度计算公式如下:
根据公式计算不同迭代轮次扩展种群中最优个体的相似度, 当相似度超过阈值且持续50轮,则结束迭代过程,选取扩展种群中的个体作为文本分割的结 果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910219163.8/1.html,转载请声明来源钻瓜专利网。