[发明专利]基于遗传算法的网络文本分割方法有效

申请号：	200910219163.8	申请日：	2009-11-26
公开（公告）号：	CN101710333A	公开（公告）日：	2010-05-19
发明（设计）人：	蔡皖东;赵煜	申请（专利权）人：	西北工业大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06N3/12
代理公司：	西北工业大学专利中心 61204	代理人：	黄毅新
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于遗传算法网络文本分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于遗传算法的网络文本分割方法，其特征在于包括以下步骤：

(a)利用网络蜘蛛在网络上收集网页，通过对收集的网页进行文本预处理，仅保留文本信息，并采用朴素贝叶斯的文本分类方法，对去除噪声后的文本信息进行分类，按类别构建扩展语料库；

(b)采用层次聚类方法对扩展语料库进行聚类，确定子主题的数目，采用Gibbs采样方法估计扩展语料库的LDA模型，估计涉及的参数采用经验值α＝0.01，β＝0.01，burn-in间距是2000，thinning间距是100；

(c)对待分割文本进行分词、词性标注、命名实体识别、词义消歧的文本预处理，统计文本中名词、动词的频率，选择高频词汇作为文本的特征词汇；再根据HowNet，计算文本的特征词汇与扩展语料库的特征词汇之间的相似度，选取相似度最大值对应的语料库为文本分割的外部语料库；最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割文本包含的语义结构信息，推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割单元中的概率；词汇所属子主题的类型用于待分割文本的表示，以句子为单位统计每个词汇所属的子主题类型，句子表示为子主题空间向量，句子Sj＝s_j1s_j2...s_jj...s_jT，s_jj表示句子j中词汇属于子主题j的频率；

(d)利用并行遗传算法进行文本分割，算法编码方案采用二进制编码方案，种群初始化采用随机数生成方法，同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标，过滤不合格的初始个体；根据公式

Coh=1-Σn=1j1kΣsi∈bnΣl=1T(sil-anl)2]]>

计算语义段落内的凝聚性；式中，|b_n|表示第n个语义段落中包含的句子数，a_n表示语义段落对应的平均向量，a_nl是该向量的第l个分量；

根据公式

Dis=Σn=1j|bn|kΣl=1T(anl-cl)2]]>

计算语义段落间的发散性；式中，

根据语义段落内的凝聚性和语义段落间发散性计算遗传迭代中每个个体的适应度函数值，计算公式如下：

式中，表示扩展种群，用于存储迭代中的最优解；

种群选择过程中，首先采用精英保留策略，保留种群及扩展种群中的精英个体，直接进入下一代进化；然后采用轮盘赌方法，分别从种群和扩展种群中选择个体，比较两个体的适应度值，选择适应度小的个体进行交叉和变异操作；

交叉过程采用单点交叉方法，为了防止近亲繁殖，当个体间汉明距离超过阈值时，才允许在种群和扩展种群之间进行交叉操作，阈值设置为个体间平均汉明距离的20％；根据种群的相似度自适应调节变异算子；种群的相似度计算公式如下：

根据公式计算不同迭代轮次扩展种群中最优个体的相似度，当相似度超过阈值且持续50轮，则结束迭代过程，选取扩展种群中的个体作为文本分割的结果，在个体的二进制表示中，数字“1”对应的句子就是文本分割的边界。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910219163.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于遗传算法的网络文本分割方法有效

专利文献下载