[发明专利]有机污染物定量结构活性相关建模的变量筛选方法有效
申请号: | 201210137589.0 | 申请日: | 2012-05-03 |
公开(公告)号: | CN102682209A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 易忠胜;刘红艳;莫凌云 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种有机污染物定量结构活性相关建模的变量筛选方法。首先计算全部的单变量和不同双变量组合的线性模型,二者均保留一定数量的最优模型。然后从保留的双变量线性模型中依次取出一个模型,将其中的两个变量与余下的变量中每一个变量分别组成三变量模型;直到所有保留的双变量模型处理完成,然后比较这些三变量模型的优劣,保留一定数量的最优三变量模型。依此类推,计算到构成模型的变量数满足要求时,停止计算。其中模型的优劣以Leave-One-Out Cross Validation(LOOCV)或者Leave-Multiple-Out Cross Validation(LMOCV)计算的q2或者均方根差RMSEV为终止标准。本发明原理简单,易于理解,容易编程实现,方法快速有效,保障了变量筛选的合理性以及模型的稳定性和预测能力。 | ||
搜索关键词: | 有机 污染物 定量 结构 活性 相关 建模 变量 筛选 方法 | ||
【主权项】:
一种有机污染物定量结构活性相关建模的变量筛选方法,其特征在于具体步骤为:(1)、单变量模型计算过程如下:按照变量顺序,依次取一个变量,即模型变量数Vn=1,建立一元线性模型,计算其相关系数r2,如果相关系数大于给定的临界值rcri,则进行LOOCV或者LMOCV计算,否则选取下一个变量建立一元线性模型,并保留预先设定的Ns个最优的模型,包括模型的变量,r2、q2、RMSEE和RMSEV等统计参数;直到所有变量计算完成;(2)、双变量模型计算过程如下:从所有两个变量的组合中依次选取一个,即模型变量数Vn=2,建立二元线性模型,计算其复相关系数r2,如果相关系数大于给定的临界值rcri,则进行LOOCV或者LMOCV计算,否则选取下一个双变量组合建立二元线性模型,并保留预先设定的Ns个最优的模型,包括模型的变量,r2、q2、RMSEE和RMSEV等统计参数;直到所有变量计算完成;(3)、三个及三个以上变量模型计算过程如下:三个及三个以上变量模型的变量数Vn≥3,从保留的Ns个变量数为Vn‑1的模型中选取一个模型,以该模型中的变量为基础,从余下的变量中每次选择一个变量与原来的Vn‑1个变量构成变量数为Vn的变量组合,建立Vn元的线性模型,计算其复相关系数r2,如果相关系数大于给定的临界值rcri,则进行LOOCV或者LMOCV计算,否则选取下一个变量组合,建立Vn元线性模型,直到所有变量计算完成;接着选取下一个变量数为Vn‑1的模型,重复以上过程,直到保留的Ns变量数为Vn‑1的模型全部处理完成;然后进行变量数为Vn+1的变量筛选,直到变量数满足要求或者变量数大于样本的5倍为止;并保留预先设定的Ns个最优的模型,包括模型的变量,r2、q2、RMSEE和RMSEV等统计参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210137589.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗虚型便秘的蜜丸
- 下一篇:一种拱桥形尺子
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用