[发明专利]一种改进型基因表达式编程-模糊C均值作物数据分类方法有效
申请号: | 201610206166.8 | 申请日: | 2016-03-31 |
公开(公告)号: | CN105912887B | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 江朝晖;李婷婷;闵文芳;饶元;马友华 | 申请(专利权)人: | 安徽农业大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230036 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种改进型基因表达式编程‑模糊C均值作物数据分类方法,使用自定义的相似度衡量计算公式并结合信息熵,计算作物数据属性的权值向量;使用加权的距离计算公式替代传统的欧式距离,并将基因表达式编程与模糊C均值算法相结合求出最佳的聚类中心对作物数据进行分类。本发明一方面能够更好地对作物数据间的距离进行衡量,大大提高分类结果的准确率;另一方面,能够以更少的迭代次数获得最佳的分类结果。 | ||
搜索关键词: | 作物数据 基因表达式 编程 分类结果 改进型 分类 模糊C均值算法 距离计算公式 相似度衡量 模糊 计算公式 计算作物 聚类中心 欧式距离 权值向量 数据属性 传统的 信息熵 自定义 准确率 迭代 加权 衡量 替代 | ||
【主权项】:
1.一种改进型基因表达式编程‑模糊C均值作物数据分类方法,其特征是按如下步骤进行:步骤1:将待分类的作物数据集合记为X={x1,x2,…,xi,…,xn};xi表示第i个作物数据;且xi={xi1,xi2,…,xik,…,xip};xik表示第i个作物数据的第k个属性;1≤i≤n;1≤k≤p;利用式(1)计算第i个作物数据xi与第j个作物数据xj之间的相似度si,j:
式(1)中,μi,j表示第i个作物数据xi与第j个作物数据xj之间的标准偏差;p表示作物数据属性的个数;d(xi,xj)表示第i个作物数据xi与第j个作物数据xj之间的距离,并有:
式(2)中,m=2或3;xie表示第i个作物数据的第e个属性;xje表示第j个作物数据的第e个属性;步骤2、利用式(3)计算第i个作物数据xi与第j个作物数据xj之间的信息熵Hi,j:
步骤3、利用式(4)计算作物数据集合X的平均信息熵H:
步骤4、定义变量K,并初始化K=1;令k=1;步骤5、从所述作物数据集合X中删除n个作物数据中的第k个属性;从而获得第K次更新的作物数据集合X(K);步骤6、计算所述第K次更新的作物数据集合X(K)的平均信息熵H(K),并求出Δ(K)=H‑H(K);以Δ(K)作为权值向量的第K个值ωK;步骤7、判断k>p是否成立,若成立,则表示获得权值向量ω;否则,将k+1赋值给k;K+1赋值给K后,返回步骤5顺序执行;步骤8、参数设置:定义种群大小为S、最大迭代次数为θ、进化次数为l;初始化h、S和θ均为正整数;l=0;步骤9、随机生成由S个个体组成的初始种群;定义个体结构是由适应度值和基因组成;所述基因划分为基因头部和基因尾部;所述基因头部是由函数符号集F={∩,∪}中随机获得长度为h的函数符,所述基因尾部是由所述作物数据集合X中随机获得;初始适应度值设置为0;步骤10、适应度计算:步骤10.1、对第l代的S个个体中任意第s个个体的基因进行解码,获得第l代第s个个体的c个聚类中心,记为![]()
表示第l代第s个个体的第r个聚类中心;且![]()
表示第l代第s个个体的第r个聚类中心的第t个属性;1≤r≤c;1≤t≤p;利用式(5)获得第i个作物数据xi到第l代第s个个体的第r个聚类中心
之间的加权距离![]()
步骤10.2、利用式(6)获得第i个作物数据xi对第l代第s个个体的第r个聚类中心
的隶属度
从而获得第l代第s个个体的隶属度矩阵![]()
步骤10.3、利用式(7)获得第l代第s个个体的适应度值![]()
步骤10.4、重复步骤10.1‑步骤10.3,从而获得第l代S个个体的适应度值,并标记拥有第l代最高适应度值的个体为B(l)和第l代最低适应度值的个体为W(l);步骤11、遗传操作:步骤11.1、利用轮盘赌将第l代最低适应度值的个体W(l)替换为第l代最高适应度值的个体B(l)后的S个个体进行选择操作;步骤11.2、根据单点重组概率对完成选择操作后的第l代S个个体进行单点重组操作;步骤11.3、根据变异概率对完成单点重组操作后的第l代S个个体进行变异操作,从而获得完成变异操作后的第l代S个个体;若变异过程中任一个体基因头部的第一位出现“∩”的函数符,则重新对相应个体进行变异操作;步骤12、生成新一代种群:步骤12.1、对完成变异操作后的第l代S个个体中任意第a个个体的基因进行解码,获得第l代第a个个体的c个聚类中心,记为![]()
表示完成变异操作后的第l代第a个个体的第r个聚类中心;步骤12.2、获得第i个作物数据xi对第l代第a个个体的第r个聚类中心
的隶属度
从而获得第l代第a个个体的隶属度矩阵
步骤12.3、根据第l代第a个个体的隶属度矩阵
对作物数据集合X划分为c类数据;步骤12.4、利用式(8)计算第l代第a个个体的c类数据中第r类数据的聚类中心![]()
式(8)中,
表示第l代第a个个体的第r类数据中第b个作物数据;且第l代第a个个体的第r类数据中共有w个作物数据;步骤12.5、重复步骤12.2‑步骤12.4,从而获得完成变异操作后的第l代第a个个体的c类数据的c个聚类中心;步骤12.6、对所述完成变异操作后的第l代第a个个体的c类数据的c个聚类中心进行编码,获得第l+1代第a个个体的基因;步骤12.7、重复步骤12.1‑步骤12.6,从而获得第l+1代S个个体的基因;步骤13、判断l+1>θ是否成立,若成立,则执行步骤14;若不成立,则将l+1赋值给l,并返回步骤10顺序执行;步骤14、对第l+1代S个个体的基因进行适应度计算,获得拥有第l+1代最高适应度值的个体为B(l+1),并对第l+1代最高适应度值的个体B(l+1)的基因进行解码,获得第l+1代个体B(l+1)的c个聚类中心;根据第l+1代个体B(l+1)的隶属度矩阵对作物数据集合X划分为c类数据;并将分类结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽农业大学,未经安徽农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610206166.8/,转载请声明来源钻瓜专利网。
- 上一篇:开关柜的操作轴与后门联锁装置
- 下一篇:一种低压单相仪表控制柜
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用