[发明专利]疾病筛查模型的构建方法、疾病筛查模型及筛查装置有效
申请号: | 202110228795.1 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112599251B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 曹善柏;周涛;张萌萌;郭璟;楼峰 | 申请(专利权)人: | 北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;北京橡鑫医学科技有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06N20/00;G16B20/10;G16B50/30;G06F16/2455 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 路秀丽 |
地址: | 100080 北京市通州区经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疾病 模型 构建 方法 装置 | ||
1.一种疾病筛查模型的构建方法,其特征在于,所述构建方法包括:
从两组测序数据中筛选出满足预测条件的多个待检特征,所述两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据,所述测序数据的测序深度为0.1×~1×;
利用多个所述待检特征进行机器学习,从而构建得到所述疾病筛查模型;
从两组测序数据中筛选出满足预测条件的多个待检特征包括:
统计所述两组测序数据中各样本的候选特征;
对各所述候选特征分别绘制ROC曲线;
筛选出AUC≥预设值的所述候选特征,作为所述待检特征;
其中,各样本的所述候选特征选自如下特征:
1)文库浓度;
2)CNV,所述CNV包括CNV个数及CNV总长度;
3)异常比对reads,所述异常比对reads包括:soft-clip reads占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及所述第一比例与所述第二比例之和;
4)插入片段大小,所述插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;
5)末端碱基,所述末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵;
所述待检特征选自如下全部:
a.文库浓度;
b. 插入片段大于100000bp的reads占总reads数的比例;
c. CNV个数;
d. CNV总长度;
e. 不同插入片段长度范围的reads数占总reads数的比例的熵;
f.支持reads末端1bp的reads数各占总reads数的比例;
g. 支持reads末端1bp的reads数各占总reads数的比例的熵;
h.支持reads末端2bp的reads数各占总reads数的比例;
i. 支持reads末端2bp的reads数各占总reads数的比例的熵;
所述不同插入片段长度范围包括90-100 bp、100-110 bp、110-120 bp、120-130 bp、130-140 bp、140-150 bp、150-160 bp、160-170 bp、170-180bp及330-390bp。
2.根据权利要求1所述的构建方法,其特征在于,所述预设值≥0.7。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;北京橡鑫医学科技有限公司,未经北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;北京橡鑫医学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110228795.1/1.html,转载请声明来源钻瓜专利网。