[发明专利]酚对发光菌毒性预测及评估的新型非线性高效模型构建方法及应用有效
申请号: | 201310007830.2 | 申请日: | 2013-01-09 |
公开(公告)号: | CN103077313A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 周玮;袁哲明;吴树波;代志军;陈渊;韩娜 | 申请(专利权)人: | 湖南农业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 410128 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发光 毒性 预测 评估 新型 非线性 高效 模型 构建 方法 应用 | ||
技术领域
本发明属于化学技术领域,涉及一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法及应用。
背景技术
随着经济的飞速发展,与化学品相关的环境问题日益突出。因此,有关有机污染物的毒性风险评估显得非常重要. 苯酚是一种最常见的环境污染物,特别是在废水中。由于在环境中的毒性和持久性,苯酚被视为优先关注的环境污染物. 明亮发光细菌 (Photobacterium phosphoreum)是一种海水中的发光细菌, 其光强随有毒物质抑制细菌生长(即细胞密度)而变化,使其成为化学品毒性测量和水质监测的重要指标。
定量构效关系(QSAR)建模是一种用于研究苯酚分子结构与毒性关系的有效方法,它有助于解释结构特征如何决定毒性。尤其在化学品的毒性评估中,一个好的QSAR模型相对于实验测试具有更快速、更低成本比的巨大优势。近日报道了一项研究18个酚类似物与毒性(表现为作用于发光菌的EC50)定量构效关系模型,该模型具有3个特征,分别由软件ChemDraw Ultra(版本11.0)、半经验量子化学方法AM1哈密尔顿和EPI Suite(版本4.0,US-EPA)计算而来,其独立预测能力较低(= 0.485)。此外,因为模型在特征选择和建模方法采用逐步线性回归(SLR)上有明显缺陷。由于化学毒性和相关特征之间的关系通常是非线性的,构建线性模型从而显得不合逻辑。所以目前的酚类似物毒性QSAR研究仍面临诸多不解。因此,基于高维特征数据、非线性特征筛选和非线性建模的模型一定会为设计新的化学品提供更有用信息。
考虑到特征矩阵的高维性,如果从中非线性选择最有用的子集特征用于建模变得越来越重要。为选择更合理的QSAR回归特征,我们采用两类基于支持向量回归(SVR)自行开发的方法:多轮末尾汰选(WDEM)和高维特征快速非线性汰选(HDSN)方法。为构建可靠的QSAR模型,我们采用非线性是SVR方法。SVR是一类基于结构风险最小化原则的机器学习方法,它能克服小样本问题、过拟合、维数灾和局部极小的难题,广泛应用于非线性建模的QASR研究中。
发明内容
为了解决上述技术问题,本发明提供一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法及应用,利用非线性SVR技术对源自现有技术的18个酚类化合物对发光菌的毒性(表示为log EC50)进行QSAR研究。这项工作的目的是基于低维特征数据和高维特征数据,通过非线性化学计量学工具寻找更合理的特征和更可靠的QSAR模型,并详细分析与毒性相关的最有价值模型及其最关键的分子特征。本发明将为设计对发光菌毒性增强或减弱的酚类似物提供有效的理论参考。
具体技术方案为:
一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法,
1)构建信息全面的数据集:包括因变量[Log EC50 (expt.)]、高维自变量、低维自变量(log Kow、μ和q-)、高维自变量通过PCLIENT软件)计算而来;
2)特征的非线性筛选:高维数据利用HDSN方法筛选特征,将高维数据变成低维数据,低维数据进一步利用WDEM方法筛选特征,最后保留的特征用来建模;
3)非线性模型的构建和评估:基于包含关键特征的低维数据集和非线性的SVR方法,构建出20个高预测精度的非线性评估模型,SVR2模型(MSE=0.017;=0.921;特征数目=10)最优,由于SVR缺乏解释性,我们基于实验室自主开发的SVR解释性体系,对最优的SVR2模型进行了一系列分析,结果显示SVR2模型具有显著的非线性(F-测验= 65.963;p = 5.363E-04),该模型中的10个特征及其效应如下:PJI2 (差异显著)、MATS3v (差异显著)、H1p (差异显著)、Mor02v (差异显著)、Mor14p (差异显著)、Mor02u (差异显著)、RDF040v (差异显著)、Mor23v (差异显著)和MATS1m (差异)。
本发明所述酚对发光菌毒性预测及评估的新型非线性高效模型在预测未知化合物的毒性中的应用。我们根据实验化合物的取代基规律虚拟了13个酚类似物。根据前面的介绍进行特征提取和活性预测,演示了整个模型推广应用的流程。
本发明的有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南农业大学,未经湖南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310007830.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用