[发明专利]一种针对基因数据的处理方法在审

专利信息
申请号: 201710993693.2 申请日: 2017-10-23
公开(公告)号: CN109698010A 公开(公告)日: 2019-04-30
发明(设计)人: 张春明;张中海;范彦辉;王炳琛;谭光明 申请(专利权)人: 北京哲源科技有限责任公司
主分类号: G16B20/30 分类号: G16B20/30
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 100095 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种针对基因数据的处理方法及系统。所述方法,包括:1)根据设定的分片长度,对各个参考基因片段进行分片;2)将测序基因数据与所述参考基因片段进行比对,获得各个测序基因数据所处的分片,并针对每个分片统计处于所述分片中的测序基因数据的数量;3)根据每个分片中的测序基因数据的数量,对包含有比其他分片更多测序基因数据的分片进行再次分片;其中,所获得的各个分片被用于并行地对测序基因数据进行处理。
搜索关键词: 基因数据 测序 参考基因 比对 并行 统计
【主权项】:
1.一种针对基因数据的处理方法,包括:1)根据设定的分片长度,对各个参考基因片段进行分片;2)将测序基因数据与所述参考基因片段进行比对,获得各个测序基因数据所处的分片,并针对每个分片统计处于所述分片中的测序基因数据的数量;3)根据每个分片中的测序基因数据的数量,对包含有比其他分片更多测序基因数据的分片进行再次分片;其中,所获得的各个分片被用于并行地对测序基因数据进行处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京哲源科技有限责任公司,未经北京哲源科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710993693.2/,转载请声明来源钻瓜专利网。

同类专利
  • 一种水稻复杂性状基因定位的方法-201910057825.X
  • 杨行海;张宗琼;夏秀忠;农保选;李丹婷;邓国富;曾宇;熊发前;戴高兴;梁海福;荘洁 - 广西壮族自治区农业科学院
  • 2019-01-22 - 2019-10-08 - G16B20/30
  • 本发明涉及植物基因定位技术领域,特别涉及一种水稻复杂性状基因定位的方法,本申请采用目标性状差异显著的两个水稻亲本,构建F2群体,根据表型将F2群体分成≥3个亚群,并在每个亚群中选取表型一致的≥30个单株,提取DNA构建多个混池进行重测序,通过将每个混池的测序reads与参考基因组序列比对,利用软件GATK检测SNP,采用SNP‑index方法计算对应位点的SNP‑index和ΔSNP‑index值,绘制出ΔSNP‑index的分布图,将显著关联ΔSNP‑index对应区域为候选区域,取相同物理位置上不同ΔSNP‑index的交集对应的区域为最终候选区域,再根据基因注释网站、测序深度和ΔSNP‑index值预测出候选基因。该方法成本低、耗时短、效率高,能定位出多个候选基因,能快速缩小目标基因所在的候选区域,能准确预测出紧密连锁的目标基因数目。
  • 一种蛋白质相互作用位点识别方法-201910686641.X
  • 王兵;张欢;汪文艳;周郁明;王彦;程竹明 - 安徽工业大学
  • 2019-07-29 - 2019-09-20 - G16B20/30
  • 本发明公开了一种蛋白质相互作用位点识别方法,属于生物信息学分析领域。本发明的方法为:先采集蛋白质链数据并对蛋白质链数据进行预处理,再将预处理后的蛋白质链数据分为界面残基和非界面残基;而后从数据库中提取特征,并将提取的特征进行融合得到数据集,再对数据集的不平衡性进行处理,然后将处理后的数据集分为训练集和测试集,再利用训练集训练XGBoost模型,最后利用XGBoost模型得到蛋白质相互作用位点。本发明目的在于克服现有技术中,对蛋白质相互作用位点进行预测时持有不同程度的“假阳性”、“假阴性”特征,使得结果分析比较困难的不足,本发明可以克服以上不足,且可以提高蛋白质相互作用位点的识别精度。
  • 一种基于Hadoop的基因序列并行比对方法-201910293732.7
  • 冯晓龙;高静 - 内蒙古农业大学
  • 2019-04-12 - 2019-07-30 - G16B20/30
  • 本发明公开了一种基于Hadoop的基因序列并行比对方法,包括以下步骤:步骤1:在Hadoop集群中,将基因对比软件、参考序列和任务脚本部署到各工作节点;步骤2:进行数据输入,同时读入多个数据文件,形成键值对;步骤3:在Map函数中对输入的键值对进行所属端的标记;步骤4:对数据进行分区,分区数据分发到Hadoop集群的工作节点上;步骤5:在Reduce函数中将分区数据本地化然后传递给比对算法;步骤6:收集分布到各节点上的结果文件,合并统一后存储于HDFS中,即完成基因序列的比对。本发明在分布式计算环境下实现了对基因数据的格式化输入和多路输入输出以及基于这两个特征的并行计算方法,简化了基因序列比对任务的计算流程,提高了计算效率。
  • 一种基于二代测序的原核转录组自动化分析方法-201910198969.7
  • 王玲平;王智健;姜丽荣;沈立;孙子奎 - 南京派森诺基因科技有限公司
  • 2019-03-15 - 2019-07-23 - G16B20/30
  • 本发明公开了一种基于二代测序的原核转录组自动化分析方法,其特征在于,包括如下步骤:原始下机数据过滤和质量控制步骤;基因组比对步骤:转录本结构分析步骤;基因表达定量以及差异表达分析步骤;结果整理步骤。本发明的有益效果在于:涵盖市场所需绝大部分分析内容,自动整理所有分析结果,完成各个部分分析之后,自动对结果进行统计,可视化,以及归类整理,使结果排布一目了然,直接用于报告生成。所有操作步骤可见,方便错误查询,在进行每一步分析时,都会记录所用到的命令行和参数,以及运行中产生的日志结果,一旦程序运行出错,可以快速检查错误。
  • 一种与蛋白质或小分子结合的核酸结合位点的预测方法-201910192563.8
  • 赵蕴杰;王慧雯;贾亚;曾辰 - 华中师范大学
  • 2019-03-14 - 2019-07-05 - G16B20/30
  • 本发明公开了一种与蛋白质或小分子结合的核酸结合位点的预测方法,属于生物分子相互作用预测研发领域。本发明方法包括如下步骤:以核酸分子结构中的核苷酸作为网络模型中的节点,核酸分子序列上两个非连续的核苷酸重原子之间的最短距离小于时则形成网络模型的边,将核酸分子结构转化为核酸分子网络模型,通过计算核酸网络的节点中心性来判断核酸分子中核苷酸的重要性,若某个节点的接近中心性和度中心性高于整个网络中所有节点的平均值和标准偏差之和,则认为该节点对应的核苷酸为核酸结合位点。本发明预测成功率高于现有方法,其简单、实用,对理解核酸的生物学机理问题和相关药物设计有重要的作用。
  • 微藻蛋白质特征序列标签匹配的快速检测方法及系统-201611162740.0
  • 王帅;郑立;孙承君;韩笑天;高珂 - 国家海洋局第一海洋研究所
  • 2016-12-15 - 2019-06-18 - G16B20/30
  • 基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统,包括采集微藻样品,获得其蛋白质序列集,转换成标准蛋白质序列集,并进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表,将键/值对列表进行汇总后做交集运算,当结果非空,则确定该数据集某条数据含有特征蛋白质序列。其系统主要包括检测数据输入模块、键/值对列表模块、检测识别模块、特征值交集运算模块、输出模块。本发明通过蛋白质序列检索以判断蛋白质的同源性和相似性程度,较传统逐条数据进行对比的方式,算法的鉴定准确率和效率有显著提高,大大提升了检索效率,不仅具有良好的实用性,而且算法的时间复杂度低,性能高,对于蛋白质组学的研究具有重要意义。
  • 基因组序列比对方法及装置-201611074255.8
  • 何光铸;王东辉;蔡文君;刘凯 - 北京荣之联科技股份有限公司
  • 2016-11-29 - 2019-05-17 - G16B20/30
  • 本发明公开了一种基因组序列比对方法及装置,包括:从待比对的基因组序列文件中读取部分基因组序列;按照双向BWT比对算法、单端动态规划比对算法和双端动态规划比对算法,将所述部分基因组序列与参考基因组序列进行比对;在按照前述任一比对算法比对结束后,当所述部分基因组序列中不存在没有比对上的序列时,从待比对的基因组序列文件中读取新的部分基因组序列,按照上述步骤继续进行比对;重复上述步骤,直至全部比对完成所述待比对的基因组序列文件,输出比对结果。本发明提出的基因组序列比对方法及装置,能够解决基因组序列比对算法的耗时较长、处理进度慢、消耗资源多的问题。
  • 一种针对基因数据的处理方法-201710993693.2
  • 张春明;张中海;范彦辉;王炳琛;谭光明 - 北京哲源科技有限责任公司
  • 2017-10-23 - 2019-04-30 - G16B20/30
  • 本发明提供一种针对基因数据的处理方法及系统。所述方法,包括:1)根据设定的分片长度,对各个参考基因片段进行分片;2)将测序基因数据与所述参考基因片段进行比对,获得各个测序基因数据所处的分片,并针对每个分片统计处于所述分片中的测序基因数据的数量;3)根据每个分片中的测序基因数据的数量,对包含有比其他分片更多测序基因数据的分片进行再次分片;其中,所获得的各个分片被用于并行地对测序基因数据进行处理。
  • 测序深度的矫正方法及装置-201811614856.2
  • 张静波;柴景超;伍启熹;王建伟;刘倩;刘珂弟;唐宇 - 北京优迅医学检验实验室有限公司
  • 2018-12-27 - 2019-04-12 - G16B20/30
  • 本发明提供了一种测序深度的矫正方法及装置,其中,上述装置包括:获取模块,用于获取基因组上每个位点的GC含量,以及所述基因组的所有位点的测序深度;划分模块,用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间,其中,N为正整数;确定模块,用于根据每个区间内位点的测序深度和N个区间的平均测序深度确定所述每个区间内不同测序深度的权重;处理模块,用于针对所述基因组的每个位点,分别将测序深度与每个测序深度对应的权重相乘,得到矫正后的每个位点的测序深度。
  • 一种基于云计算基因序列数据质控管理方法-201811439230.2
  • 杨文婷;陈亮 - 江苏医联生物科技有限公司
  • 2018-11-29 - 2019-04-05 - G16B20/30
  • 本发明涉及一种基于云计算基因序列数据质控管理方法,包括:样本临床信息管理、实验数据管理、数据全流程质控和分析结果管理。样本临床信息管理的检测项目包括基因组学分析、转录组学分析,基因组学分析包括全基因组测序、全外显子测序和靶向区域测序;转录组学分析包括基因融合、可变剪切和差异表达分析。本发明将实验环节与分析环节紧密联系在一起,既让分析人员能够全面了解临床信息、样本信息、实验结果,有助于其进行后续分析,提高分析结果的精准性,又能帮助实验人员了解测序数据的质量,从而反思实验过程中存在的不足之处,进而提高实验质量,可以很好地满足实际应用的需要。
  • 一种高通量测序的RNA数据处理方法-201811130687.5
  • 宁康;钱晓波;陈超云;杨朋硕 - 华中科技大学鄂州工业技术研究院;华中科技大学
  • 2018-09-27 - 2019-04-02 - G16B20/30
  • 本发明公开了一种高通量测序的RNA数据处理方法,所述数据处理方法以高通量测序的RNA读段建立数据库,去除读段中的接头引物和低质量碱基,多重序列对比识别内源污染序列和外源污染序列并清除,获得处理后的RNA数据。本发明不仅达到数据高质量化的目标,同时将更多的重点放在污染识别和去除的方法上,比较有针对性地且使用DNA条形码的方式来识别污染,而且在处理后能够保留大部分数据信息,缩小与真实情况的差距,经过组装并利用生物DNA条形码(barcode gene)建立隐马尔科夫模型(HMM)的方法,搜索识别污染来源,比对去除污染序列,使得处理过后的高质量数据达到研究所需的要求。
  • 基于转录组数据确定肿瘤标记物的方法-201510919456.2
  • 李姣;郑思 - 中国医学科学院医学信息研究所
  • 2015-12-11 - 2019-04-02 - G16B20/30
  • 本发明公开一种基于转录组数据确定肿瘤标记物的方法,包括:(1)获得转录组数据,包括第一和第二转录组数据,第一和第二转录组数据分别包括第一和第二个体样本的mRNA、lncRNA和miRNA表达数据,第一和第二个体样本的区别包括分别具有一对相对表型特征中的一个;(2)分别建立个体具有表型特征与三种RNA表达量关系的正则化逻辑回归模型,分别利用模型对三种RNA表达数据进行回归,获得三种RNA分子回归系数;(3)利用网格搜索,分别依据三种RNA分子回归系数确定三种RNA阈值;(4)分别将三种RNA分子回归系数与对应阈值比较,确定三种RNA候选标记;(5)混合三种RNA候选标记物获得RNA混合数据,以RNA混合数据替代转录组数据进行(2)‑(4),确定肿瘤标记物。
  • 基于光学图谱平台Irys的一种de novo测序数据组装方法-201610211082.3
  • 马丰收;张艺;何飞;刘洋 - 晶能生物技术(上海)有限公司
  • 2016-04-06 - 2019-03-29 - G16B20/30
  • 本发明涉及一种基于光学图谱平台Irys的一种denovo测序数据组装方法,使用光学图谱平台Irys得到基因组装文件;同时,拿到NGS的scaffold文件:fai文件;数据预处理:通过设定阈值,过滤掉可信度低的比对结果,合并cmap文件,排序,计算N50;组装效果统计:统计BioNano与NGS比对结果,包括BioNano的contig与NGS的scaffold长度、个数以及总量;根据BioNano的contig与NGS的scaffold之间的网络拓扑关系,分类分析组装出的新的contig长度与scaffold长度。可以辅助基因组组装,明显提高物种的基因组装效果。
  • 一种肿瘤突变位点筛选及互斥基因挖掘的方法-201610318266.X
  • 薛成海;马飞;李连硕 - 万康源(天津)基因科技有限公司
  • 2016-05-13 - 2019-03-26 - G16B20/30
  • 本发明提供了一种肿瘤突变位点筛选及互斥基因挖掘的方法,包括以下步骤:(1)过滤vcf文件以及ANNOVAR注释软件的输出文件;(2)进行不同实验组突变位点的描述性分析;(3)构建突变基因矩阵;(4)对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,确定互斥与共突变基因。本发明通过使用突变位点的注释信息以及测序read数、位点测序深度等基本参数对突变位点进行过滤,然后对于得到的突变位点进行不同实验组突变模式的描述性分析以及共突变、互斥突变基因集合的挖掘。
  • 一种基于perl语言的种群特异SNP位点的自动化分析方法-201811083689.3
  • 刘坤艳 - 上海派森诺生物科技股份有限公司
  • 2018-09-17 - 2019-03-08 - G16B20/30
  • 本发明公开的一种基于perl语言的种群特异SNP位点的自动化分析方法,具体包括如下步骤:(1)样本过滤步骤;(2)特异性定义步骤;(3)比较种群定义步骤;(4)比较方式选择步骤。本发明的有益效果在于:1.本发明是基于perl脚本的自动化分析方法,可对vcf文件全自动分析,提高数据处理效率和服务器使用效率。2.本发明的输入文件为变异的vcf文件格式,能与现有所有主流软件产生的变异结果文件无缝对接,大大提高了分析的便利性。3.本发明中的流程预留了不同的参数设置,既能比较两个种群,也能比较三个及以上的种群,同时满足不同研究目的的需要。
  • 一种基于集群的高通量数据分析方法-201610788828.7
  • 杨飞;陈昌岳;任一;占雪峰;张祥林 - 上海美吉生物医药科技有限公司
  • 2016-08-31 - 2019-03-05 - G16B20/30
  • 一种高通量数据分析方法,一种高通量数据分析方法,对高通量测序下机数据的处理包括:对下机数据进行数据分割;在对下机数据进行数据分割后,生成多个前数据片文件,在与参考基因组的所以比对完成后,将生成的多个比对结果片文件合并为一个比对结果文件;预先指定一个区域文件,将其分割成指定的多个区域子文件;将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割,生成多个后数据片文件,提供给后续步骤处理。对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。
  • 一种统计分析蛋白质肽键的顺式和反式结构的方法-201610934882.8
  • 何建锋 - 北京理工大学
  • 2016-11-01 - 2019-03-01 - G16B20/30
  • 一种统计分析蛋白质肽键的顺式和反式结构的方法,属于蛋白质结构分析、结构预测和顺式与反式构型异构研究领域。主要特点为:采用蛋白质肽平面碳、氮、氧原子建立坐标标架,计算待考察原子在单位球面上中的经纬度角,并将所有待考察原子投影到这个单位球面上,得到待考察原子的三维统计分布图;这是一种直观地、可视化的蛋白质结构分析方法,能有效地展现肽键的顺式和反式结构中的差异,揭示肽键的顺式和反式结构中原子的分布特征。比现有的基于结构化学的方法更新颖;可分析任意侧链原子的结构特性;能够直观地能够展现蛋白质中某种原子或某类原子的几何结构特性;对蛋白质结构预测、结构优化、结构约束、顺式和反式结构异构化分析具有重要意义。
  • 基于SVM-AdaBoost的成熟miRNA全位点识别方法-201811166574.0
  • 王颖;汝吉东 - 齐齐哈尔大学
  • 2018-10-08 - 2019-02-26 - G16B20/30
  • 基于SVM‑AdaBoost的成熟miRNA全位点识别方法,属于生物信息学领域。现有的单一分类器识别成熟miRNA问题中存在的精度不高和类不平衡问题。一种基于SVM‑AdaBoost的成熟miRNA全位点识别方法,选取miRBase数据库中pre‑miRNA序列,并在选取的序列上建立训练数据集和测试集;提取基于结构化序列的成熟miRNA剪切位点生物特征;通过信息增益特征选择算法获得新的特征集;构建基于概率的可调参数SVM分类器模型;构建基于AdaBoost算法的集成分类器模型;训练miRNA剪切全位点分类器。本发明提高了识别精度,并降低了平均核苷酸偏移数;且通过同一测试集,对多个成熟miRNA识别方法对比分析,本发明提出的方法分类性能更高。
  • 一种无创产前生物信息检测分析方法-201610377564.6
  • 郑洪坤;郭强;许德德;汪德勇 - 北京百迈客医学检验所有限公司
  • 2016-05-31 - 2019-02-01 - G16B20/30
  • 本发明涉及医学检测领域,具体公开了一种无创产前生物信息检测分析方法。为了提高对不同数量待测样本分析的准确性,本发明根据不同的待测样本数量选择不同的检测分析方法,利用待测样本所获得的参数和正常参考集所获得的参数采取不同的分析策略,更大程度上提升分析的准确度。本发明采用稳健回归和CV回归很好的解决了现有技术使用整条染色体方法矫正的过程中,使用最小二乘法回归,异常数据讲对斜率产生较大的影响,造成回归的结果不太准确的问题,保证了样本分析的稳健性和准确性。本发明原创了一套利用ZZ值判定性染色体的异常的分析方法;使用ZZ值法进行染色体异常的判定,更符合相关的统计学判定标准,并且结果会更加准确,增加了判定性染色体异常的方法的可靠性。
  • 微生物操作分类单元确定和序列辅助分离的方法和系统-201610333530.7
  • 赵立平;王景;张梦晖 - 完美(中国)有限公司
  • 2016-05-19 - 2019-02-01 - G16B20/30
  • 基于样品中微生物的系统发生信息基因的DNA序列定义样品中的微生物操作分类单元(OTU)的方法,其通过处理原始序列读出以获得合格序列片段,根据其各自的相对丰度值对其进行排序,并且仅使用具有高丰度值的合格序列获得暂定OTU来进行。重新划归具有低丰度的合格序列,并且只有当所述合格序列与OTU序列具有至少97%的序列相似性时才将所述合格序列分别分配到合适的暂定OTU。本发明还提供了序列辅助的微生物分离方法。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top