[发明专利]一种基于特有识别序列的T细胞受体库高通量测序文库构建及测序数据分析方法在审

申请号：	201811598261.2	申请日：	2018-12-26
公开（公告）号：	CN111363783A	公开（公告）日：	2020-07-03
发明（设计）人：	吴启家;王晶晶;蒋菁菁;郑亚标;周宇	申请（专利权）人：	武汉康测科技有限公司
主分类号：	C12Q1/6806	分类号：	C12Q1/6806;C12Q1/6869;C12N15/11;G16B30/00;C12N15/10;C40B50/06
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	彭劲松
地址：	430000 湖北省武汉市东湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特有识别序列细胞受体通量序文构建序数分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种带有特有识别序列的T细胞受体高通量测序文库构建接头元件，其特征在于，所述接头元件为带有粘性末端的发夹结构的DNA寡核苷酸，DNA序列从5’到3’依次包含茎环发夹序列A、识别序列RS、固定序列FS、发夹序列B和随机序列，发夹序列A和B互补形成发夹的茎结构，接头元件的5’末端带有磷酸基团修饰，3’末端带有氨基基团修饰；所述接头元件的识别序列RS包含4～15个随机排列组合的核苷酸；接头元件的固定序列FS为Illumina/Life文库PCR引物的识别序列；所述接头元件为一条两端序列互补的DNA寡核苷酸，通过高温变性后退火形成发夹结构；所述接头元件为含有不同随机排列组合核苷酸序列的识别序列RS的发夹结构DNA寡核苷酸的混合物；

上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件从5’→3’方向的序列为：GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAACTCTGAACCACTGGATACACNNNNNN，如SEQID NO:1所示，其中GTGTATCCAGTG为发夹序列A，NNNNNNNN为识别序列RS，GATCGTCGGACTGTAGAACTCTGAAC为固定序列FS，CACTGGATACAC为发夹序列B，NNNNNN为随机序列；发夹序列A和B互补，通过高温退火形成发夹的茎结构，同时使随机序列突出形成粘性末端；固定序列FS为Illumina/Life文库PCR引物的识别序列；N表示A、T、C、G中任意一种碱基，不同位置的N为相同或不同的碱基；5’带有PO₄修饰，3’带有NH₂修饰。

2.一种对T细胞受体进行高通量测序的方法，其特征在于，包括如下步骤：(1)T细胞受体测序文库的构建方法：

S1：提取样本的总RNA：使用Trizol试剂或商品化试剂盒提取总RNA；

S2：使用与TCR恒定区序列互补的TCR特异性引物进行逆转录，获得TCR链完整cDNA分子；所述TCR特异性引物的核苷酸从5’→3’方向的序列为CAGAGGTGCTCTTGGAGGAG，如SEQ IDNO.2所示；

S3：使用夹板连接法(splint ligation)将权利要求1所述的接头元件使用T4连接酶连接到步骤S2所述cDNA的3′端；

S4：cDNA纯化：使用Beckman核酸纯化试剂盒对步骤S3获得的cDNA进行纯化；

S5：cDNA的靶向扩增：所述靶向扩增上游引物的核苷酸从5’→3’方向的序列为AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAG TCCGA，如SEQ ID NO:3所示，其中GTTCAGAGTTCTACAGTCCGA与权利要求1所述的接头元件中的固定序列FS互补结合；所述靶向扩增下游引物的核苷酸从5’→3’方向的序列为GTGACTGGAGTTCCTTGGCACCCGAGAATTCCACTCCTCCAAG AGCACCTCTG，如SEQ ID NO:4所示，其中，CTCCTCCA AGAGCACCTCTG与步骤S2所述的特异性引物互补，GTGACTGGAGTTCCTT GGCACCCGAGAA TTCCA为Illumina/Life文库PCR引物的识别序列；通过靶向扩增获得两端带有Illumina/Life文库PCR引物的识别序列的DNA；

S6：DNA纯化：使用Beckman核酸纯化试剂盒对步骤S5获得的DNA进行纯化；

S7：DNA的PCR扩增：所述PCR扩增引物为SEQ ID NO:3和SEQ ID NO:5，其中SEQ ID NO.5的核苷酸从5’→3’方向的序列为CAAGCAGAAGACGGCATACGAGATCTAGTACGGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA，其中GTGACTGGAGTTCCT TGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列；

S8：PCR产物纯化：使用Beckman核酸纯化试剂盒对步骤S7获得的DNA进行纯化；

S9:使用Illumina高通量测序平台MiSeq PE250进行测序；

(2)对(1)构建的T细胞受体测序文库测序数据分析方法：

S1：对下机数据进行质量控制，去除含有低质量碱基的序列、去除测序读N碱基的序列和截掉相应的测序接头；

S2：利用接头中的固定序列，寻找到特有识别序列的位置，并对特有识别序列进行序列解析；

S3：reads聚类：把带有相同特有识别序列的reads作为一个聚类(cluster)；在每一个cluster中，通过计算reads之间的序列相似性，进行再次聚类，得到亚聚类(sub-cluster)：相似度高于95％的reads聚为一个亚类，似度低于95％的reads归入不同的亚类中；

S4：reads的一致性归并：将每个sub-cluster下面的reads进行多序列比对和一致性归并，最终得到一条一致性read；在一致性归并的过程中，来源相同的分子的重复reads最终被归并为一条序列，达到去重的目的；同时，同一sub-cluster中的reads在PCR扩增或上机测序过程中引入的错误碱基也会基于多条reads的一致性序列被纠正，从而实现去除重复和纠正错误的双重目的；

S5：测序过程中特有识别序列同样会引入错误，因此对相同一致性reads的特有识别序列进行相似性比较，将相似性高于90％的特有识别序列进行合并，达到特有识别序列纠错的目的；

S6：使用MiXCR软件，即Bolotin DA 2015，将通过一致性归并获得的所有reads序列与国际免疫遗传学数据库IMGT中的V、D、J基因片段进行比对，其网址为http://www.imgt.org/，确定每条一致性序列的TCR组成，包括V、D、J基因使用情况，TCR重组中随机插入和删除的碱基；

S7：V、D、J基因功能注释：根据IMGT中V/J基因功能注释、CDR3区域长度和CDR3编码产物，判断TCR重排序列是否具备功能，并统计TCR功能分类；

S8：根据TCR的比对结果，统计V和J基因及V-J基因对使用频率，寻找不同样本间表达模式差异，并计算样本TCR组成多样性；

优选地，采用Shannon’s entropy，Simpson’s index和D50(Wu J 2015)计算样本TCR组成多样性：

Shannon’s entropy计算公式：

Simpson’s index计算公式：

其中：s表示实际观测到TCR重组序列数目；pi表示第i个TCR重排序列在所有TCR中所占的比例；

将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列，然后按照这个顺序将TCR序列所占比例依次相加，当相加比例达到样本的一半时，此时所相加的TCR重排序列数目即为D50，D50值越大，说明样本TCR多样性越高。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉康测科技有限公司，未经武汉康测科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811598261.2/1.html，转载请声明来源钻瓜专利网。