[发明专利]一种基于分段编码遗传算法的文本信息分类方法有效

申请号：	201610144800.X	申请日：	2016-03-14
公开（公告）号：	CN105787088B	公开（公告）日：	2018-12-07
发明（设计）人：	童一飞;裴凤雀;周开俊;江松;卓兴成;李东波;何非	申请（专利权）人：	南京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/22;G06F17/15;G06N3/12
代理公司：	南京同泽专利事务所(特殊普通合伙) 32245	代理人：	赵洪玉
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及智能制造信息分析技术，尤其是涉及一种基于分段编码遗传算法的文本信息分类方法。本发明主要包括以下步骤：通过文本前处理技术生成相应的文本信息矩阵，即为群体规模，给定降维特征数，随机产生初始群体，同时标记优化目标函数值最大的染色体，记录优化函数值；染色体采用分段编码(每段对应一类)，对初始种群交叉、变异生产新的种群，计算优化种群的优化函数值。本发明可以生成优化的文本信息分类，基于分段编码/交叉的合理分类可以解决遗传算法因数据量大而产生的工作效率低下的问题，同时因分段编码/交叉可以实现分布式处理、并行操作，可极大地提高后续数据处理的效率。
搜索关键词：	一种基于分段编码遗传算法文本信息分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于分段编码遗传算法的文本信息分类方法，分别将分为t种类型的文本信息记为C₁,C₂,…,C_t，式中t≥2，其中C_i类文本信息预设通过k_i个特征表示，1≤i≤t；则文本信息中共有个特征，设特征向量其中F1,F2,…,Fn分别表示不同的特征；接着进行以下步骤：第一步、从每个待分类文本信息mc中找出所有特征，该文本信息描述为其中A＝[a₁,a₂,...,a_j,...,a_n]表示该文本信息mc与特征向量F的关系矩阵；为关系运算符号，a_j取0或1，当a_j＝0时表示该文本信息中不包含特征F_j，当a_j＝1时表示该文本信息中包含特征F_j,其中1≤j≤n；以每个待分类文本信息mc的关系矩阵A为染色体的基因编码，并随机选取d个染色体生成初始种群，将初始种群作为当代种群；第二步、对当代种群的染色体进行适应度计算来筛选保留作为子代染色体，步骤为：步骤一、给定任一染色体T＝[a1,a2,...,aj,...,an]的降维优化函数为式中p为降维特征数，s_i为该染色体T中包含C_i类的所有k_i个特征总数量，x_ij为C_i类的第j个特征出现的次数，1≤i≤t，步骤二、找到初始种群中降维优化函数值最大的染色体记为其降维优化函数值记为步骤三、计算当代种群中所有染色体的降维优化函数值，找出使降维优化函数最大的染色体U，其降维优化函数值为f，如果则令同时找出当代种群中所有染色体的降维优化函数值最小的染色体V，其降维优化函数值为f_min，如果则令第三步、对第二步筛选后的当代种群进行变异和交叉，得到子代种群，如不满足迭代终止条件则将子代种群作为当代种群并转到第二步，其中迭代终止条件为遗传代数达到预定值；否则执行第四步；第四步、计算第三步得到的子代种群所有染色体中包含C_i类文本信息的特征总数量s1_i，以及所有染色体中C_i类文本信息第j个特征出现的次数x1_ij，其中1≤i≤t，1≤j≤k_i，令计算每个待分类文本信息mc的目标函数值式中，yij为待分类文本信息mc中Ci类文本信息第j个特征出现的次数；第五步、将待分类分配信息mc划归到使目标函数g(mc)最大的类，得出分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610144800.X/，转载请声明来源钻瓜专利网。

上一篇：一种云计算环境下大数据节点的自动部署方法及其装置
下一篇：一种异构系统间业务数据自动同步的实现方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分段编码遗传算法的文本信息分类方法有效

专利文献下载