[发明专利]一种基于R语言的化合物质谱信息批量检索方法有效

专利信息
申请号: 201910642216.0 申请日: 2019-07-16
公开(公告)号: CN110415771B 公开(公告)日: 2022-11-29
发明(设计)人: 黄青;钱翰宇;张玫;谭力;贾蓓茜;袁耀佐;施海蔚;罗楠;张莹;马跃新;刘书娟 申请(专利权)人: 江苏省食品药品监督检验研究院
主分类号: G16C20/40 分类号: G16C20/40;G16C20/90
代理公司: 南京天华专利代理有限责任公司 32218 代理人: 莫英妍
地址: 210019*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语言 化合 物质 信息 批量 检索 方法
【说明书】:

发明提出一种基于R语言的化合物质谱信息批量检索方法,通过数据清洗,提取位置标签及关键词,建立合适的数据抓取方式,调整数据排列形式,可快速批量检索Mona等外部公开数据库中的化合物质谱信息,实现对数百个化合物的快速批量本地化检索的同时,有效缩短搜索时间,并能够根据实际应用需求抽取所需信息,生成方便阅读的汇总报告。

技术领域

本发明属于计算机领域,尤其是一种基于R语言的化合物质谱信息批量检索方法。

背景技术

随着近年来高分辨质谱技术的迅猛发展,大量的公开(包括国际共建的)、商用、机构内部的大型化合物数据库应运而生,广泛被应用于生命科学、环境、医药、农业、食品科学研究的各个环节。其中最常用的公开数据库包括Pubchem数据库、Chemspider数据库、Mona数据库等,这些数据库的信息源自于全世界范围内的知识共建共享,该类知识库的建立,极大的便利了科研人员对于化合物全面信息的检索、调用乃至理解运用。

以Mona(Mass Bank of America)数据库为例,该质谱数据库是UC Davis维护的公共数据库,用于存储机构和个人上传的化合物质谱原始数据,内含实验所得质谱以及计算获得的质谱数据信息,现总共包含20多万化合物图谱,并在持续增加。该公共质谱库的建立旨在促进高分辨质谱数据资源的公共利用,数据库主要靠用户上传不停更新维护,可经由网站直接存取,所有质谱图谱资料集可经由FTP免费下载。通常对于单一化合物,Mona内含的质谱图数据来源于不同来源实验室上传的,包括不同的仪器(离子阱、轨道阱等),不同离子化方式(ESI,APCI等),甚至部分数据存有LC/GC部分数据。因此,对应化合物的源码文件中,通常包括了:化合物分子式、SMILES和InChIKey、实验仪器和实验条件、高分辨质谱下的精确分子量(理论计算或实验数据)、二级质谱信息等(如下图n所示)。这些信息对于分析质谱图谱、未知化合物快速准确的定性分析起到至关重要的作用。

当前高分辨质谱技术的检测能力已发展至一个平台,能对几百甚至上千种靶标物质进行快速、高灵敏度、高准确性的定性和定量。在这些工作中,更多的技术限制已不再呈现在质谱仪硬件,而是受限于互联共建的知识库(质谱数据库)以及能够快速、充分挖掘这些数据库并输出符合应用场景需求的二次数据的检索软件。

现阶段对于化合物质谱数据库的常用检索方法及其缺陷包括:(1)在数据库对应的境外网站进行单个化合物有限信息的逐一检索(如https://pubchem.ncbi.nlm.nih.gov/;如http://mona.fiehnlab.ucdavis.edu/)。其缺陷在于:所有上述公开数据库的服务器都在境外,检索速度受到网速的极大限制,经常失效;仅支持单一化合物检索,过程非常繁琐,效率极低;无法对丰富的实验数据进行再次深度挖掘。(2)下载源码文件,用TXT或者CSV格式直接阅读,或在SQL等数据库框架软件转化格式进行阅读。其缺陷在于:如图1所示,这种数据结构的本地化后,解决了境外数据库检索受限的问题,但完全不适合人工阅读、检索、数据挖掘。图1所示的数据源码信息全面,但不适于人工阅读检索,且由于信息由世界范围内研究人员上传,化合物间词条信息往往无法对应,极难进行数据抓取和批量数据挖掘。

我们在实际工作中,经常需要对几百种化合物的质谱信息、对应的通用实验信息进行查询。譬如国标规定需受控的残留农药、残留兽药、真菌毒素、非法添加违禁药品;公安部受控的毒品和新型精神活性物质;生命科学领域的差异性小分子代谢化合物;其清单数量均在数百至数千种,经常需要根据项目/案情需求从中调取多达几百种化合物信息。如果依旧按照传统方法,从包含多达百万甚至千万级信息的境外数据库,进行人工逐一检索,耗时耗力且效率低下,直接人工阅读查找源码数据更不可能。

发明内容

一种基于R语言的化合物质谱信息批量检索方法,包括以下步骤:

步骤1:导入MoNA数据库作为检索母库,输入待检索列表;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省食品药品监督检验研究院,未经江苏省食品药品监督检验研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910642216.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top