[发明专利]一种新的分析生物基因组拷贝数变异的可视化方法在审
申请号: | 201710266656.1 | 申请日: | 2017-04-21 |
公开(公告)号: | CN107133494A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 宋凯;毕家豪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/26 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 宋洁瑾 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分析 生物 基因组 拷贝 变异 可视化 方法 | ||
技术领域
本发明属于生物信息学或基因技术的技术领域,涉及一种提供生物基因可视化的方法。
背景技术
随着生物科学的发展,人类基因组计划完成后,人类对生命现象的探索越来越深入。我们已经知道人体基因约含3万多个基因,它们由约30亿个碱基对组成,分布在细胞核的23对染色体中。
DNA序列总量实在是一个天文数字,然而研究DNA及其编码的功能大分子蛋白质,对逐日增多的序列和结构进行收集、整理、储存、发布、提取和加工。并从中分析和发现新的序列,从而不断揭示人体生理和病理过程的分子基础,为人类疾病的预防、诊断和治疗提供依据,其意义是十分重大的,并已形成了“生物信息学”一门新兴学科。
全基因组拷贝数变异的可视化研究,也是一个重要的内容。目前全基因组拷贝数变异可视化的方法比较单一,其特点是直观方便,但是在多个癌症类型下进行拷贝数变异对比,或者在同一个癌症类型下不同类型样本的拷贝数变异的对比的效果不是很好。
发明内容
为了解决现有技术中存在的问题,本发明提供一种新的分析生物基因组拷贝数变异的可视化方法(Mountain plot),克服现有技术中多个癌症类型下进行拷贝数变异对比,或者在同一个癌症类型下不同类型样本的拷贝数变异的对比的效果不好的问题。
本发明的技术方案是:一种新的分析生物基因组拷贝数变异的可视化方法,包括以下步骤:
(1)横纵坐标的确定:人体有22条常染色体,基因约含3万多个基因,每个基因都有具体对应的几号染色体和对应的具体的起始位置,把每个染色体的所有基因(22条染色体,也就是22个图),按照每个基因的起始位置作为横坐标,用matlab软件中的均值函数或者中位数函数遍历该基因对应的所有样本拷贝数,将该基因的均值或者中位数值作为纵坐标;
(2)绘图:用matlab中的plot函数,绘制点;由于每条染色体上的基因个数很多,所有绘制出的结果是点很密;
(3)生物中每条染色体的着丝粒都有具体的位置坐标,用matlab中的line函数,用黑色的竖杠将着丝粒表示出来,同时将染色体p臂,q臂上的基因分隔开来。
本发明的有益效果是:
相比之前的可视化方法,我们用的这种可视化方法,可以很清晰明了的对比几种不同的癌症类型的拷贝数变异或者是在同一个癌症类型下不同类型样本的拷贝数变异的对比。着丝粒的黑色竖杠,把染色体两个臂分开来。以一种很直观的方式把22条常染色体的所有基因的拷贝数状态值呈现出来。
附图说明
图1是肺腺癌、肺鳞状细胞癌肿瘤样本和非肿瘤肺病样本在全基因组范围内的拷贝数变异分布图;
其中红色的部分代表肺腺癌肿瘤拷贝数的变异分布,蓝色部分代表肺鳞癌肿瘤拷贝数变异的变异分布;绿色部分代表非恶性肺病样本拷贝数的分布,其中n表示有多少样本数。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细描述。
对于一种癌症类型,人体基因约含3万多个基因,每个基因都有具体对应的几号染色体和对应的具体的起始位置ucstart,我们把每个染色体(22条染色体,也就是22个图)的所有基因,按照每个基因的ucstart位置作为横坐标,该基因对应的所有样本拷贝数的均值或者中位数作为纵轴,然后用MATLAB的plot函数绘制散点,一种颜色表示一种癌症。如上图所示:三种类型的样本的基因拷贝数状态值,可以很直观的进行对比。
总的来说,如果要对比多种癌症类型,我们根据颜色就可以很清楚的知道是哪种癌症类型,它们之间的比较可视化效果最佳。如果要对比同一种癌症类型下的肿瘤样本和正常样本,肿瘤样本表示成一种颜色,正常样本表示成另外一种颜色,它们之间的比较可视化效果也是最佳的。并且我们根据着丝粒的位置标注了黑色的竖杠,将染色体p臂,q臂上的基因分隔开来。我们发明的这种可视化方法,在多个癌症类型下进行拷贝数变异的对比,或者在同一个癌症类型下不同类型样本的拷贝数变异的对比,这两种情况都可以做。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710266656.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用