[发明专利]一种基于多连体特征的T细胞受体对应表位预测方法有效
| 申请号: | 202010198109.6 | 申请日: | 2020-03-19 |
| 公开(公告)号: | CN111429965B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 王嘉寅;童瑶;杨玲;郑田;刘涛;李敏;张选平 | 申请(专利权)人: | 西安交通大学;北京吉因加科技有限公司 |
| 主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B30/10;G16B40/00 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 连体 特征 细胞 受体 对应 预测 方法 | ||
1.一种基于多连体特征的T细胞受体对应表位预测方法,其特征在于,包括以下步骤:
S1、将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;
S2、根据步骤S1得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取,具体为:
S201、将初始特征矩阵记为:X={x1,x2,...,xn},对每一列特征进行中心化,n为样本数目;
S202、令样本点xi在新空间中超平面上的投影为WTxi,若所有的样本点都分开,使投影后样本点的方差最大化,确定优化目标;
S203、使用拉格朗日乘数法对优化目标件求解,对协方差矩阵XXT进行特征分解,将求得的特征值排序;再取前k个特征值对应的特征向量构成投影矩阵W,最终得到的特征矩阵WTX为一个k行n列的矩阵;
S3、对于n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测,具体为:
S301、初始化迭代次数m=0,初始化模型f0(x);
S302、每一次模型迭代在当前模型的基础上添加一颗决策树,使用残差L(y,fm-1(x))估计参数Θm;
S303、令m=m+1,若m小于最大迭代次数,则返回步骤S302;否则,停止训练,返回以上训练的所有决策树,完成表位预测模型训练;
S4、将步骤S2的特征数据输入步骤S3训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。
2.根据权利要求1所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S201中,m维列向量xi为:
其中,n是训练样本个数,m是特征维数。
3.根据权利要求1所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S202中,优化目标为:
其中,W是投影矩阵,WT是投影矩阵的转置矩阵,X是初始特征矩阵,XT是初始特征矩阵的转置。
4.根据权利要求1所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S203中,对优化目标件求解,得到
XXTW=λW
投影矩阵W为:
W=(w1,w2,...,wk)
其中,λ是特征值,wi是投影矩阵的列向量,1≤i≤k,特征值的排序为:λ1≥λ2≥...≥λn。
5.根据权利要求1所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S301中,初始化模型f0(x)为:
其中,N是样本数量,c是初始模型拟合的常数,L是对数似然损失函数,定义为:
其中,Y为输出变量,X为输入变量,L为损失函数,M为表位类别个数,yij是一个二值指标,若类别j是否是输入示例xi的真实类别,则yij=1;否则yij=0,pij为模型预测输入实例xi属于类别j的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学;北京吉因加科技有限公司,未经西安交通大学;北京吉因加科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010198109.6/1.html,转载请声明来源钻瓜专利网。





