[发明专利]一种基于分段编码遗传算法的文本信息分类方法有效

专利信息
申请号: 201610144800.X 申请日: 2016-03-14
公开(公告)号: CN105787088B 公开(公告)日: 2018-12-07
发明(设计)人: 童一飞;裴凤雀;周开俊;江松;卓兴成;李东波;何非 申请(专利权)人: 南京理工大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/22;G06F17/15;G06N3/12
代理公司: 南京同泽专利事务所(特殊普通合伙) 32245 代理人: 赵洪玉
地址: 210094 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及智能制造信息分析技术,尤其是涉及一种基于分段编码遗传算法的文本信息分类方法。本发明主要包括以下步骤:通过文本前处理技术生成相应的文本信息矩阵,即为群体规模,给定降维特征数,随机产生初始群体,同时标记优化目标函数值最大的染色体,记录优化函数值;染色体采用分段编码(每段对应一类),对初始种群交叉、变异生产新的种群,计算优化种群的优化函数值。本发明可以生成优化的文本信息分类,基于分段编码/交叉的合理分类可以解决遗传算法因数据量大而产生的工作效率低下的问题,同时因分段编码/交叉可以实现分布式处理、并行操作,可极大地提高后续数据处理的效率。
搜索关键词: 一种 基于 分段 编码 遗传 算法 文本 信息 分类 方法
【主权项】:
1.一种基于分段编码遗传算法的文本信息分类方法,分别将分为t种类型的文本信息记为C1,C2,…,Ct,式中t≥2,其中Ci类文本信息预设通过ki个特征表示,1≤i≤t;则文本信息中共有个特征,设特征向量其中F1,F2,…,Fn分别表示不同的特征;接着进行以下步骤:第一步、从每个待分类文本信息mc中找出所有特征,该文本信息描述为其中A=[a1,a2,...,aj,...,an]表示该文本信息mc与特征向量F的关系矩阵;为关系运算符号,aj取0或1,当aj=0时表示该文本信息中不包含特征Fj,当aj=1时表示该文本信息中包含特征Fj,其中1≤j≤n;以每个待分类文本信息mc的关系矩阵A为染色体的基因编码,并随机选取d个染色体生成初始种群,将初始种群作为当代种群;第二步、对当代种群的染色体进行适应度计算来筛选保留作为子代染色体,步骤为:步骤一、给定任一染色体T=[a1,a2,...,aj,...,an]的降维优化函数为式中p为降维特征数,si为该染色体T中包含Ci类的所有ki个特征总数量,xij为Ci类的第j个特征出现的次数,1≤i≤t,步骤二、找到初始种群中降维优化函数值最大的染色体记为其降维优化函数值记为步骤三、计算当代种群中所有染色体的降维优化函数值,找出使降维优化函数最大的染色体U,其降维优化函数值为f,如果则令同时找出当代种群中所有染色体的降维优化函数值最小的染色体V,其降维优化函数值为fmin,如果则令第三步、对第二步筛选后的当代种群进行变异和交叉,得到子代种群,如不满足迭代终止条件则将子代种群作为当代种群并转到第二步,其中迭代终止条件为遗传代数达到预定值;否则执行第四步;第四步、计算第三步得到的子代种群所有染色体中包含Ci类文本信息的特征总数量s1i,以及所有染色体中Ci类文本信息第j个特征出现的次数x1ij,其中1≤i≤t,1≤j≤ki,令计算每个待分类文本信息mc的目标函数值式中,yij为待分类文本信息mc中Ci类文本信息第j个特征出现的次数;第五步、将待分类分配信息mc划归到使目标函数g(mc)最大的类,得出分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610144800.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top