[发明专利]一种基于多连体特征的T细胞受体对应表位预测方法有效
| 申请号: | 202010198109.6 | 申请日: | 2020-03-19 |
| 公开(公告)号: | CN111429965B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 王嘉寅;童瑶;杨玲;郑田;刘涛;李敏;张选平 | 申请(专利权)人: | 西安交通大学;北京吉因加科技有限公司 |
| 主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B30/10;G16B40/00 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 连体 特征 细胞 受体 对应 预测 方法 | ||
本发明公开了一种基于多连体特征的T细胞受体对应表位预测方法,将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;根据得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取;设有n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测;将特征数据输入训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。本发明仅使用三联体的统计值作为初始特征,结合梯度提升决策树模型能够在极短的时间内完成模型的训练,且预测的准确度更高。
技术领域
本发明属于以精准医学为应用背景的数据科学技术领域,具体涉及一种基于多连体特征的T细胞受体对应表位预测方法。
背景技术
T细胞受体(英文名称:T cell receptor,英文缩写:TCR)和表位(英文名称:epitope)与主要组织相容性复合体(英文名称:major histocompatibility complex,英文缩写:MHC)的特异性结合能够激活免疫系统,从而引发一系列特异性免疫反应。免疫治疗正是利用特异性免疫系统这一特性,通过研制对应药剂,人为激活免疫系统,使机体的免疫系统重新工作以消灭体内的入侵者或者癌细胞。因此TCR对应表位的预测可为探索疾病机制、癌症的免疫治疗、药物开发和疫苗制作等领域提供重要的理论依据。
虽然第二代测序技术(英文名称:Next Generation Sequencing,英文缩写:NGS)提供了海量的核苷酸序列与氨基酸序列,但是由于标注成本高耗时长,目前有标注的数据仍然很少。如果能够从当前的少量的有标注数据中训练一个相对可靠的预测模型,就能够应用于TCR表位的标注问题,节省大量时间与经济成本。另外,由于TCR的基因片段是通过一系列的非同源重组得到的,其涉及组合来自变量区(V),多样性(D)和连接(J)基因区段的TCR基因座以及核苷酸随机插入和/或删除,因此能够产生大量不同的TCR,规模可达1015~1061。此外,由于交叉反应(英文名称:cross-reactivity)的存在,一个TCR能够识别多种表位,同时一个表位也能识别多种TCR。通过人工以及统计学方法很难从这样的数据中发现TCR和pMHC的匹配模式,如果能借助机器学习算法研究TCR和pMHC的特异性结合机制,在免疫治疗的过程中具有重要意义。
TCR可以分为四个CDR(Complementarity determining region)区域:CDR1,CDR2,CDR2.5和CDR3,抗原的特异性识别主要取决于CDR区域。其中CDR3区域多样性最高,主要和表位的肽链结合,CDR1,CDR2和CDR2.5主要和MHC分子结合,不过也可以和肽链结合。已有研究发现CDR3β链在预测表位的过程中发挥了主要的作用,但尚不清楚是CDR3β链中的物理化学特性或者结构特性或者其他因素占据主导作用。
目前,国内外均已经有研究人员尝试研究CDR3和表位数据之间的关系,可以大致分为两类:第一类使用方法定义TCR或CDR3序列相似性度量方法,在求得序列之间的相似性之后再利用简单的分类器如K近邻(英文名称:K-nearest neighbor,英文缩写:K-nn)算法进行分类。第二类方法基于TCR或CDR3序列提取氨基酸的物理化学特征或者基于BLOSUM矩阵对氨基酸序列进行编码,再利用机器学习模型训练得到一个预测模型。
但是,这两类方法的预测性能都不是很好,而且主要存在以下问题:其一,第一类方法需要计算任意两条TCR序列之间的相似性,因此其计算相似性的时间复杂度是O(n2),训练过程比较耗时。其二,第二类方法基本都是基于氨基酸进行编码,由于不同的CDR3序列长度不一定相等,因此需要进行对齐操作以确保每条TCR序列的特征向量具有相同的维度,已有的方法的对齐操作都比较暴力,并没有统一的标准。其三、第一类方法主要考虑两条TCR序列整体的相似性,第二类方法主要考虑序列中每个氨基酸的信息,没有方法考虑到TCR序列中相邻氨基酸提供的信息在TCR和表位的特异性识别过程中发挥的作用。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学;北京吉因加科技有限公司,未经西安交通大学;北京吉因加科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010198109.6/2.html,转载请声明来源钻瓜专利网。





