[发明专利]微卫星不稳定位点筛选、分析模型的构建方法及装置在审
申请号: | 202010007987.5 | 申请日: | 2020-01-06 |
公开(公告)号: | CN110797078A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 黄毅;易鑫;杨玲;刘久成;吴玲清 | 申请(专利权)人: | 北京吉因加科技有限公司;北京吉因加医学检验实验室有限公司 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B20/30;G16B40/00 |
代理公司: | 11250 北京三聚阳光知识产权代理有限公司 | 代理人: | 李静 |
地址: | 102299 北京市昌平区中关村科技园区昌平园*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 位点 微卫星 不稳定性 检测 训练集样本 位点突变 信息熵 样本 筛选 微卫星位点 方案解决 分析模型 检测结果 突变检测 突变类型 定位点 基因组 灵敏度 区分度 构建 可用 关联 涵盖 参考 记录 | ||
1.一种微卫星不稳定位点筛选模型的构建方法,其特征在于,包括:
S1、以参考基因组的微卫星位点作为候选MS位点;
S2、选取已知微卫星不稳定性状态信息为阳性和阴性的样本若干作为训练集样本,对所述训练集样本的候选MS位点区域进行突变检测,分别记录突变类型和数目,计算每个所述候选MS位点突变的信息熵;所述信息熵的计算公式如下式(1):
(1)
其中,
代表每个所述候选MS位点的Indel数目,;
代表每个所述候选MS位点的Indel数目占所有候选MS位点Indel数目总和的百分比,;
S3、将所述微卫星不稳定性状态信息与每个所述候选MS位点突变的信息熵的熵值进行关联,选取每个所述候选MS位点可用来区分微卫星不稳定性状态的熵值阈值,选择筛选出前k个区分度最高的候选MS位点为MSI位点,k≤候选MS位点总数目,所筛选的候选MS位点的熵值阈值区分所述训练集样本的微卫星不稳定性状态的假阳性比率和假阴性比率均<5%。
2.根据权利要求1所述的微卫星不稳定位点筛选模型的构建方法,其特征在于,在S2步骤中,在突变检测前,还包括对用于突变检测的测序数据进行质控,将质控后的测序数据与参考基因组比对,并对比对结果文件的捕获效率、目标区域平均测序深度、微卫星位点的覆盖深度和污染率进行阈值筛选,选出阈值范围内的候选MS位点进行后续突变检测。
3.根据权利要求2所述的微卫星不稳定位点筛选模型的构建方法,在S2步骤中,捕获效率阈值≥50%,目标区域平均测序深度阈值≥500,微卫星位点的覆盖深度最低标准≥50X,污染率阈值≤5%。
4.一种微卫星不稳定性分析模型的构建方法,其特征在于,包括利用权利要求1-3任一项所述的微卫星不稳定位点筛选模型的构建方法构建的模型。
5.根据权利要求4所述的微卫星不稳定性分析模型的构建方法,其特征在于,还包括分析步骤,取与所述训练集样本的类型相同的待测样本,将所述待测样本按照S2步骤计算MSI位点的信息熵,与 S3步骤中训练的MSI位点的熵值阈值比较,当待测样本全部的MSI位点中存在>30%个位点为MSI阳性时,则所述待测样本为高频微卫星不稳定;当待测样本全部的MSI位点中存在≥10%,且≤30%个位点为MSI阳性时,则所述待测样本为低频微卫星不稳定性;当待测样本全部的MSI位点中存在<10%个位点为MSI阳性时,则所述待测样本为微卫星稳定。
6.一种如权利要求1-3任一项所述的微卫星不稳定位点筛选模型的构建方法或如权利要求4或5所述的微卫星不稳定性分析模型的构建方法构建的模型。
7.一种微卫星不稳定位点筛选装置,其特征在于,包括:
候选MS位点筛选单元,用以获取参考基因组的微卫星位点作为候选MS位点;
计算信息熵单元,用于计算训练集样本的每个所述候选MS位点突变的信息熵;信息熵的计算公式如下式(1):
(1)
其中,
代表每个所述候选MS位点的Indel数目,;
代表每个所述候选MS位点的Indel数目占所有候选MS位点Indel数目总和的百分比,;
MSI位点筛选单元,用于将训练集样本的微卫星不稳定性状态信息与每个所述候选MS位点突变的信息熵的熵值进行关联,选取每个所述候选MS位点可用来区分所述微卫星位点不稳定性状态的熵值阈值,筛选出区分度高的所述候选MS位点为MSI位点。
8.一种微卫星不稳定性分析装置,其特征在于,包括:
候选MS位点筛选单元,用以获取参考基因组的微卫星位点作为候选MS位点;
计算信息熵单元,用于计算训练集样本的每个所述候选MS位点突变的信息熵;信息熵的计算公式如下式(1):
(1)
其中,
代表每个所述候选MS位点的Indel数目,;
代表每个所述候选MS位点的Indel数目占所有候选MS位点Indel数目总和的百分比,;
MSI位点筛选单元,用于将训练集样本的微卫星不稳定性状态信息与每个所述候选MS位点突变的信息熵的熵值进行关联,计算每个所述候选MS位点可用来区分所述微卫星位点不稳定性状态的熵值阈值,筛选出区分度高的所述候选MS位点为MSI位点;
分析单元,用于将待测样本按照计算信息熵单元计算的MSI位点的信息熵,与 MSI位点筛选单元中训练的MSI位点的熵值阈值比较:当待测样本全部的MSI位点中存在>30%个位点为MSI阳性时,则所述待测样本为高频微卫星不稳定;当待测样本全部的MSI位点中存在≥10%,且≤30%个位点为MSI阳性时,则所述待测样本为低频微卫星不稳定性;当待测样本全部的MSI位点中存在<10%个位点为MSI阳性时,则所述待测样本为微卫星稳定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京吉因加科技有限公司;北京吉因加医学检验实验室有限公司,未经北京吉因加科技有限公司;北京吉因加医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010007987.5/1.html,转载请声明来源钻瓜专利网。