[发明专利]一种改进型基因表达式编程-模糊C均值作物数据分类方法有效

申请号：	201610206166.8	申请日：	2016-03-31
公开（公告）号：	CN105912887B	公开（公告）日：	2018-07-10
发明（设计）人：	江朝晖;李婷婷;闵文芳;饶元;马友华	申请（专利权）人：	安徽农业大学
主分类号：	G06F19/24	分类号：	G06F19/24
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230036 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种改进型基因表达式编程‑模糊C均值作物数据分类方法，使用自定义的相似度衡量计算公式并结合信息熵，计算作物数据属性的权值向量；使用加权的距离计算公式替代传统的欧式距离，并将基因表达式编程与模糊C均值算法相结合求出最佳的聚类中心对作物数据进行分类。本发明一方面能够更好地对作物数据间的距离进行衡量，大大提高分类结果的准确率；另一方面，能够以更少的迭代次数获得最佳的分类结果。
搜索关键词：	作物数据基因表达式编程分类结果改进型分类模糊C均值算法距离计算公式相似度衡量模糊计算公式计算作物聚类中心欧式距离权值向量数据属性传统的信息熵自定义准确率迭代加权衡量替代
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种改进型基因表达式编程‑模糊C均值作物数据分类方法，其特征是按如下步骤进行：步骤1：将待分类的作物数据集合记为X＝{x1,x2,…,xi,…,xn}；xi表示第i个作物数据；且xi＝{xi1,xi2,…,xik,…,xip}；xik表示第i个作物数据的第k个属性；1≤i≤n；1≤k≤p；利用式(1)计算第i个作物数据xi与第j个作物数据xj之间的相似度si,j：式(1)中，μi,j表示第i个作物数据xi与第j个作物数据xj之间的标准偏差；p表示作物数据属性的个数；d(xi,xj)表示第i个作物数据xi与第j个作物数据xj之间的距离，并有：式(2)中，m＝2或3；xie表示第i个作物数据的第e个属性；xje表示第j个作物数据的第e个属性；步骤2、利用式(3)计算第i个作物数据xi与第j个作物数据xj之间的信息熵Hi,j：步骤3、利用式(4)计算作物数据集合X的平均信息熵H：步骤4、定义变量K，并初始化K＝1；令k＝1；步骤5、从所述作物数据集合X中删除n个作物数据中的第k个属性；从而获得第K次更新的作物数据集合X(K)；步骤6、计算所述第K次更新的作物数据集合X(K)的平均信息熵H(K)，并求出Δ(K)＝H‑H(K)；以Δ(K)作为权值向量的第K个值ωK；步骤7、判断k＞p是否成立，若成立，则表示获得权值向量ω；否则，将k+1赋值给k；K+1赋值给K后，返回步骤5顺序执行；步骤8、参数设置：定义种群大小为S、最大迭代次数为θ、进化次数为l；初始化h、S和θ均为正整数；l＝0；步骤9、随机生成由S个个体组成的初始种群；定义个体结构是由适应度值和基因组成；所述基因划分为基因头部和基因尾部；所述基因头部是由函数符号集F＝{∩,∪}中随机获得长度为h的函数符，所述基因尾部是由所述作物数据集合X中随机获得；初始适应度值设置为0；步骤10、适应度计算：步骤10.1、对第l代的S个个体中任意第s个个体的基因进行解码，获得第l代第s个个体的c个聚类中心，记为表示第l代第s个个体的第r个聚类中心；且表示第l代第s个个体的第r个聚类中心的第t个属性；1≤r≤c；1≤t≤p；利用式(5)获得第i个作物数据x_i到第l代第s个个体的第r个聚类中心之间的加权距离步骤10.2、利用式(6)获得第i个作物数据x_i对第l代第s个个体的第r个聚类中心的隶属度从而获得第l代第s个个体的隶属度矩阵步骤10.3、利用式(7)获得第l代第s个个体的适应度值步骤10.4、重复步骤10.1‑步骤10.3，从而获得第l代S个个体的适应度值，并标记拥有第l代最高适应度值的个体为B(l)和第l代最低适应度值的个体为W(l)；步骤11、遗传操作：步骤11.1、利用轮盘赌将第l代最低适应度值的个体W(l)替换为第l代最高适应度值的个体B(l)后的S个个体进行选择操作；步骤11.2、根据单点重组概率对完成选择操作后的第l代S个个体进行单点重组操作；步骤11.3、根据变异概率对完成单点重组操作后的第l代S个个体进行变异操作，从而获得完成变异操作后的第l代S个个体；若变异过程中任一个体基因头部的第一位出现“∩”的函数符，则重新对相应个体进行变异操作；步骤12、生成新一代种群：步骤12.1、对完成变异操作后的第l代S个个体中任意第a个个体的基因进行解码，获得第l代第a个个体的c个聚类中心，记为表示完成变异操作后的第l代第a个个体的第r个聚类中心；步骤12.2、获得第i个作物数据x_i对第l代第a个个体的第r个聚类中心的隶属度从而获得第l代第a个个体的隶属度矩阵步骤12.3、根据第l代第a个个体的隶属度矩阵对作物数据集合X划分为c类数据；步骤12.4、利用式(8)计算第l代第a个个体的c类数据中第r类数据的聚类中心式(8)中，表示第l代第a个个体的第r类数据中第b个作物数据；且第l代第a个个体的第r类数据中共有w个作物数据；步骤12.5、重复步骤12.2‑步骤12.4，从而获得完成变异操作后的第l代第a个个体的c类数据的c个聚类中心；步骤12.6、对所述完成变异操作后的第l代第a个个体的c类数据的c个聚类中心进行编码，获得第l+1代第a个个体的基因；步骤12.7、重复步骤12.1‑步骤12.6，从而获得第l+1代S个个体的基因；步骤13、判断l+1＞θ是否成立，若成立，则执行步骤14；若不成立，则将l+1赋值给l，并返回步骤10顺序执行；步骤14、对第l+1代S个个体的基因进行适应度计算，获得拥有第l+1代最高适应度值的个体为B(l+1)，并对第l+1代最高适应度值的个体B(l+1)的基因进行解码，获得第l+1代个体B(l+1)的c个聚类中心；根据第l+1代个体B(l+1)的隶属度矩阵对作物数据集合X划分为c类数据；并将分类结果输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽农业大学，未经安徽农业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610206166.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种改进型基因表达式编程-模糊C均值作物数据分类方法有效

专利文献下载