[发明专利]有机污染物定量结构活性相关建模的变量筛选方法有效
申请号: | 201210137589.0 | 申请日: | 2012-05-03 |
公开(公告)号: | CN102682209A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 易忠胜;刘红艳;莫凌云 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有机 污染物 定量 结构 活性 相关 建模 变量 筛选 方法 | ||
技术领域
本发明涉及一种有机污染物定量结构活性相关建模的变量筛选方法,具体地说是从大量的分子结构描述符变量中,选取一定数量相互作用较大的n-变量组合;然后以此为基础,每次增加一个变量,与所有选取出n-变量组合构成(n+1)-变量组合,并筛选出一定数量的(n+1)-变量组合,依次类推,直到满足要求为止,从而得到不同变量数的最优线性模型的一种变量筛选方法。
背景技术
有机污染物的定量结构活性相关(Quantitative Structure and Activity Relationship,QSAR)研究方法作为一种计算机建模技术,能够深入挖掘有机污染物结构与其对人体及生态环境造成危害之间的量变规律和因果关系,为从分子水平上将污染物结构与其相对宏观的多样性环境行为和毒性效应进行关联提供了一种强有力的体外模拟技术。QSAR模型可以预测并弥补有机污染物环境行为和生态毒理数据的缺失、节省人力物力,有助于减少和替代实验(尤其是动物实验)测试,因此QSAR目前已经成为污染物环境生态风险评价和人体健康风险评价的重要工具(王连生,韩朔睽,有机污染物的定量结构-活性相关,1993,北京:中国环境科学出版社;国家自然科学基金委员会化学科学部组编,叶常明,王春霞,金龙珠主编,21世纪的环境化学,2004,科学出版社:北京。)
随着化学信息学的高速发展,QSAR建模研究的日益深入,表征分子结构的描述变量越来越多(目前可提取5000以上)。然而,因为结构表征描述符的提取方式、原理和途径等不一致,包含信息量的不一致,导致描述符变量之间存在大量的信息重叠或冗余,为QSAR模型的建立带来了困难。同时根据奥卡姆剃刀原则,要求模型尽可能简单,以避免复杂模型带来的过拟合问题。因此,筛选最佳的分子结构描述符变量子集,建立QSAR模型是成了有机污染物毒性效应建模与预测中急需解决的问题。
通常,解决大量描述变量建模方法还有主成分回归(Principle Component Regression,PCR)和偏最小二乘法(Partical Least Squares,PLS),这两种方法都是从描述变量中分解出有原变量线性组合构成的几个重要的正交变量,然后建立模型的方法,可以解决部分线性相关及大变量集的问题(刘树深;易忠胜,基础化学计量学.科学出版社:北京,1999.王惠文;吴载斌;孟洁,偏最小二乘回归的线性与非线性方法.国防工业出版社:北京,2006.)。实际上,这两种方法所得模型质量不会超过通过适宜的变量筛选方法得到模型质量(Kubinyi,H.,Variable Selection in QSAR Studies.I.An Evolutionary Algorithm.QSAR Comb.Sci.1994,13(3),285-294.);其次,这两种方法,最后建立的模型是一个隐模型,也就是不能给出一个明确函数关系,虽然可以通过拟线性化得到线性模型(刘树深,有机物分子电性距离矢量表征及其应用.高等教育出版社:北京,2005.),但变量数比较多的时候,非常不方便;因主成分为原变量的线性组合,不能直接给出分子结构描述符变量与有机污染物毒性效应之间的影响关系。因此,现在QSAR建模预测有机污染物毒性效应时,通常从众多的分子结构描述中筛选最佳子集,然后采用线性方法进行建模和预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210137589.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗虚型便秘的蜜丸
- 下一篇:一种拱桥形尺子
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用