[发明专利]基于相似基因比例的基因家族关系判定方法有效
申请号: | 201710229350.9 | 申请日: | 2017-04-10 |
公开(公告)号: | CN106980777B | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 向浏欣;吴朝锋;蔡应繁;汪露;邓聿杉;何琳 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 50221 重庆乐泰知识产权代理事务所(普通合伙) | 代理人: | 刘佳 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种基于相似基因比例的基因家族关系判定方法,包括确定一个基因家族为指定基因家族,计算两个考察物种谁与参考物的指定基因家族亲缘关系更近,计算方法为将参考物种指定基因家族的基因分别与两个考察物种指定基因家族的基因进行两两序列比对,分别获取多个阈值条件下的参考物种的考察物种非冗余基因比例,确定相同阈值条件下参考物种的考察物种非冗余基因比例间的差值的绝对值最大且非冗余基因比例较大的考察物种为与参考物种指定基因家族关系更密切,可认为该考察物种与参考物种具有更相似的相应形态发育特征而应用于优势物种或目的物种的筛选,还可反映不同物种间基因家族的进化关系。 | ||
搜索关键词: | 基于 相似 基因 比例 家族 关系 判定 方法 | ||
【主权项】:
1.基于相似基因比例的基因家族关系判定方法,其特征在于:/n确定一个待分析的基因家族作为指定基因家族;/n选择参考物种,获取其所述指定基因家族所包含的基因,作为参考基因;/n确定第一考察物种,获取其所述指定基因家族所包含的基因作为第一考察基因;/n确定第二考察物种,获取其所述指定基因家族所包含的基因作为第二考察基因;/n将参考基因与第一考察基因进行两两序列比对,从该序列比对结果中获取大于阈值条件的第一考察物种的非冗余基因个数及该个数占第一考察基因总数的比例,将该比例作为参考物种的第一考察物种非冗余基因比例,所述阈值条件为匹配序列长度和匹配序列相似性值的组合,所述大于阈值条件为大于匹配序列长度且大于匹配序列相似性值,所述阈值条件的数量大于等于2个;/n将参考基因与第二考察基因进行两两序列比对,从该序列比对结果中获取大于所述阈值条件的第二考察物种的非冗余基因个数及该个数占第二考察基因总数的比例,将该比例作为参考物种的第二考察物种非冗余基因比例;/n计算相同阈值条件时参考物种的第一考察物种非冗余基因比例与参考物种的第二考察物种非冗余基因比例的差值,确定差值的绝对值最大且非冗余基因比例较大的考察物种为与参考物种指定基因家族的关系更密切。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710229350.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种物种间基因家族亲缘关系计算方法
- 下一篇:一种便携式美术作品展示架
- 同类专利
- 交互融合特征表示与选择性集成的DNA结合蛋白识别方法-201710731309.1
- 游文杰;陈芳;甘胜进 - 福建师范大学福清分校
- 2017-08-23 - 2020-02-14 - G16B30/10
- 本发明涉及交互融合特征表示与选择性集成的DNA结合蛋白识别方法。相比于现有的方法,本发明的方法具有更加卓越的性能,这也间接表明本发明的交互融合特征表示能够生成携带有强判别信息的特征,同时选择性集成还能进一步提升整体学习器的泛化能力,最终能够保证对DNA结合蛋白的准确预测。
- 基于蛋白质序列功能区域的癌症驱动识别-201910991325.3
- 卢新国;袁玥;王新宇;丁莉;高妍 - 湖南大学
- 2019-10-18 - 2020-02-11 - G16B30/10
- 癌症驱动因素的识别是解释癌症发生机制和实现精准医疗的关键挑战。根据单个突变位点或整个基因来识别癌症驱动因素的方法有很多。但是它们忽略了大量中等大小的功能元素。假设在蛋白质序列的不同区域发生的突变对癌症的进展有不同的影响。在此,我们开发了一种基于贝叶斯概率和多元线性回归模型的新的功能驱动区域(frDriver)识别方法,来识别能够调控基因表达水平和具有高功能影响潜力的蛋白区域。结合基因表达数据和体细胞突变数据,结合功能影响评分(SIFT,PROVEAN)作为先验知识,我们确定了预测基因表达水平最准确的癌症驱动区域。我们评估了frDriver在TCGA的BRCA和GBM数据集上的性能。结果表明,frDriver识别出已知的癌症驱动因素,并优于其他三种最先进的方法(eDriver、ActiveDriver和OncodriveCLUST)。
- 基于约束概率矩阵分解方法预测miRNA与疾病的潜在关联-201910997340.9
- 卢新国;陈关元;朱正浩;李金鑫;丁莉 - 湖南大学
- 2019-10-18 - 2020-02-11 - G16B30/10
- 本发明涉及及生物信息学中的数据挖掘,特别是涉及对疾病生物信息学数据和miRNA基因数据的挖掘。具体涉及通过对miRNA和疾病生物信息的数据挖掘预测miRNA与疾病的潜在关联。本发明的方法包括对miRNA和疾病关联数据的处理;对疾病相似性的分析;对miRNA相似性的分析;学习基于领域的miRNA与疾病的关联;对疾病相关miRNA的约束概率矩阵分解;对miRNA与疾病潜在关联的预测。本发明可用于预测miRNA与疾病的潜在关联,检测出与疾病相关联的潜在miRNA。
- 一种针对大数据基因组比对文件排序的并行加速方法-201911008972.4
- 张中海;谭光明;张春明;姚二林 - 中国科学院计算技术研究所
- 2019-10-23 - 2020-02-07 - G16B30/10
- 本发明公开了一种针对大数据基因组比对文件排序的并行加速方法,包括以下步骤:对目标BAM文件进行读取和解压,并存入连续的第一缓冲区B;每当第一缓冲区B存满后,进行多线程排序并通过堆排序进行归并形成一个中间文件;依次对所述中间文件进行读取,放入关联的第二缓冲区MB,对每个第二缓冲区MB的数据通过堆排序进行归并;将归并的数据通过多个线程进行压缩处理,写入结果文件。本发明通过为读取和解压单独分配线程,分别为解压和压缩构建线程池,减少开辟的线程数量,充分利用多线程资源,提高文件读写效率,减少中间文件的数量,减小内存拷贝操作次数,实现处理时间的缩短。
- 拷贝数变异的分析方法、分析装置、设备及存储介质-201810481391.1
- 唐小艳;孙明明;陈白雪;欧小华;赵薇薇;于世辉 - 广州金域医学检验中心有限公司;广州金域医学检验集团股份有限公司
- 2018-05-18 - 2020-01-31 - G16B30/10
- 本发明涉及一种拷贝数变异的分析方法、分析装置、设备及存储介质。本发明提供的上述拷贝数变异的分析方法通过对二代测序的DNA测序数据依次进行抽提、比对、标记区分、统计分析,最终得到CNV区域的read的占比和/或拷贝数,最终结果准确性高,分辨率好,尤其是在抽提过程中,根据靶标区域的碱基数目、测序读长以及预设的平均深度来确定待抽取的read数目,这样可以有针对性的对不同的测序结果进行分析,分析结果的可靠性大大提高。
- 测序建库的引物序列处理方法、装置、设备及存储介质-201810490410.7
- 刘晶星;毛琳琳;严慧;赵薇薇;于世辉 - 广州金域医学检验中心有限公司;广州金域医学检验集团股份有限公司
- 2018-05-21 - 2020-01-31 - G16B30/10
- 本发明涉及一种测序建库的引物序列处理方法、装置、设备及存储介质。该方法包括获取将测序数据比对到参考基因组得到的测序比对文件、从所述测序比对文件得到正向比对结果和反向比对结果、确定正向比对结果中的各read对应的扩增子,以及确定反向比对结果中的各read对应的扩增子等步骤。该测序建库的引物序列处理方法、装置、设备和存储介质通过对测序结果进行处理,可以精准识别扩增片段中的引物部分,经过后续处理,如软切或硬切,可以排除该引物部分对测序结果分析的影响,可以最大限度的保留待测序片段的数据信息,保证测序结果分析的准确性和可靠性。
- 新抗原的鉴别、制造及使用-201880037822.3
- B·布里克-沙利文;R·耶冷斯凯;J·巴斯比;A·德里蒂 - 磨石肿瘤生物技术公司
- 2018-06-08 - 2020-01-21 - G16B30/10
- 本文公开了一种用于确定如基于个体的肿瘤突变确定的等位基因、新抗原及疫苗组合物的系统和方法。还公开了用于从肿瘤获得高质量测序数据的系统和方法。此外,本文也描述了用于在多态性基因组数据中鉴别体细胞变化的系统和方法。此外,本文描述了用于选择进行治疗的患者子集的系统和方法。基于为患者鉴别的一种或多种新抗原候选物,为每个患者确定指示肿瘤细胞表面呈递的新抗原的估计数目的效用分数。基于确定的效用分数选择患者子集。选定的患者子集可以接受治疗,例如新抗原疫苗或检查点抑制剂治疗。最后,本文描述了独特的癌症疫苗。
- 一种基于云架构平台的基因数据分析方法-201910931181.2
- 阚苏立;陶德晶;卢清瑶 - 江苏医健大数据保护与开发有限公司
- 2019-09-29 - 2020-01-03 - G16B30/10
- 本发明涉及基因数据分析技术领域,具体地说,涉及一种基于云架构平台的基因数据分析方法。其方法步骤如下:建立云架构平台的基因数据库,以云架构平台为框架,将基因序列数据存储于基因数据库;优化基因序列区域,对基因序列区域进行全局和局部优化;基于流形学习算法对基因序列数据进行挖掘;该基于云架构平台的基因数据分析方法中,以云架构平台为框架,将基因序列数据存储于基因数据库内,形成了不再单一的大数据,提高数据处理的效率,通过全局优化模块和局部优化模块,实现基因序列的对比和拼接,基于流形学习算法对基因序列数据进行挖掘,便于提取序列数据中的重要数据。
- 基于相似基因比例的基因家族关系判定方法-201710229350.9
- 向浏欣;吴朝锋;蔡应繁;汪露;邓聿杉;何琳 - 重庆邮电大学
- 2017-04-10 - 2019-12-31 - G16B30/10
- 本发明公开了一种基于相似基因比例的基因家族关系判定方法,包括确定一个基因家族为指定基因家族,计算两个考察物种谁与参考物的指定基因家族亲缘关系更近,计算方法为将参考物种指定基因家族的基因分别与两个考察物种指定基因家族的基因进行两两序列比对,分别获取多个阈值条件下的参考物种的考察物种非冗余基因比例,确定相同阈值条件下参考物种的考察物种非冗余基因比例间的差值的绝对值最大且非冗余基因比例较大的考察物种为与参考物种指定基因家族关系更密切,可认为该考察物种与参考物种具有更相似的相应形态发育特征而应用于优势物种或目的物种的筛选,还可反映不同物种间基因家族的进化关系。
- 基于二代测序的单基因或多基因拷贝数检测系统及方法-201910077588.3
- 蔡秋娴;旷婷;孟鑫 - 明码(上海)生物科技有限公司
- 2019-01-28 - 2019-12-27 - G16B30/10
- 本发明公开了一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法,利用基于正则化线性回归模型(LASSO)的机器学习算法以及层次转移模型推断单基因或者多基因外显子的拷贝数变异,包括依次连接的:序列比对模块、去除重复序列模块、计算覆盖深度模块、标准化覆盖深度模块、正则化线性回归训练模块(LASSO线性回归训练模块)、覆盖深度预测模块、断点检测和log2Ratio值矫正模块、拷贝数状态推断模块。本发明利用机器学习方法对大规模二代靶向捕获测序数据进行训练,结合层次转移模型,目的是降低由于批次效应造成的技术和生物学误差,从而达到更好的拷贝数检测的准确性和精度。
- 一种端到端的基于深度学习的ncRNA家族识别方法-201910852568.9
- 刘元宁;王林宇;钟晓丹;刘海明;张浩;郑少阁 - 吉林大学
- 2019-09-10 - 2019-12-20 - G16B30/10
- 本发明公开了一种端到端的基于深度学习的ncRNA家族识别方法,其方法分为三部分:模型设计、模型训练以及装置设计和模型测试,各部分主要步骤为:第一步、模型设计;第二步、模型训练及装置设计;第三步、模型测试。本发明的有益效果:本发明提供了一种端到端的基于深度学习的ncRNA家族识别方法,该方法的新颖之处在于可以直接利用深度学习提取ncRNA序列特征来识别ncRNA家族,而不需要基于ncRNA二级结构预测工具的二级结构特征。不同于其他方法,我们的方法避免了由于ncRNA二级结构预测工具准确率比较低,而对精确地识别ncRNA家族带来不利的影响。因此,我们的方法不仅简化了操作步骤,使得ncRNA家族识别更加简便,更提高了识别精度。
- 一种基于翻译组的环状RNA翻译多肽的检测分析方法-201910768511.0
- 夏昊强;周煌凯;高川;张羽;陶勇;罗玥;陈飞钦;张秋雪 - 广州基迪奥生物科技有限公司
- 2019-08-20 - 2019-12-10 - G16B30/10
- 本发明提供一种基于翻译组的环状RNA翻译多肽的检测分析方法,包括如下内容:S1.将样本高通量测序获得的高质量比对序列进行TopHat比对以及鉴定,将鉴定结果过滤后,获得环状RNA序列信息;S2.对S1获得的环状RNA序列信息进行ORF注释;S3.对S1获得的环状RNA序列信息进行IRES预测;S4.结合ribosome‑seq测序数据鉴定内源性circRNA翻译产物;S5.对单样本检测到S4获得的具有junction reads的circRNA的母基因进行GO和KEGG富集分析。本发明基于翻译组的环状RNA翻译多肽的检测分析方法可以预测环状RNA的蛋白编码能力,同时结合翻译组ribosome‑seq数据,进一步找出环状RNA翻译的证据。
- 一种基于高通量测序的数据分析方法-201710656413.9
- 温颜华 - 北京百迈客生物科技有限公司
- 2017-08-03 - 2019-11-19 - G16B30/10
- 本发明公开一种基于高通量测序的数据分析方法。其中,所述方法包括:获取参考测序样品和对照测序样品,获得三种的RNA的差异DNA甲基化区域相关的表达水平出现差异的RNA,获得甲基化水平和表达水平高度相关的RNA,构成候选竞争性内源RNA调控关系对,生成候选竞争性内源RNA网络,筛选出hub节点,并将所述hub节点进行癌症的体细胞突变收录数据库注释。本发明提供的基于高通量测序的数据分析方法,将hub节点在癌症的体细胞突变收录数据库进行注释,发现癌症相关的竞争性内源RNA调控关系,预测癌症发生发展过程总的调控机制,提高了对癌症致病机理预测的准确性。
- 一种肿瘤新生抗原的鉴定方法-201810101691.2
- 莫凡;陈荣昌;罗凯;马志明;周秀卿;黄灵灵 - 杭州纽安津生物科技有限公司
- 2018-02-01 - 2019-11-19 - G16B30/10
- 本发明提供了一种能够从NGS数据中分析出个体样本的肿瘤特异性抗原的方法;本发明能够利用NGS数据,快速准确的分析出个体样本的肿瘤特异性抗原,为医生的诊断和分析提供参考依据,并且可同步进行正常细胞和肿瘤细胞与人类参考基因组的比对,分析时间短,分析效率高。
- 专利分类