[发明专利]一种SNP双通道编码方法在审
| 申请号: | 202210857188.6 | 申请日: | 2022-07-20 |
| 公开(公告)号: | CN115083518A | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | 徐雪松;赵文兵;邓泽旺 | 申请(专利权)人: | 湖南工商大学 |
| 主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B30/00;G06F17/16 |
| 代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 马凤兰 |
| 地址: | 410205 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 snp 双通道 编码 方法 | ||
1.一种SNP双通道编码方法,其特征在于,包括:
S1:获取基因组选择的数据和SNP序列文件,所述数据包括SNP输入数据,根据所述SNP输入数据建立数据列表;所述SNP输入数据包括SNP编号;
S2:根据所述SNP编号对数据列表的列进行排序;
S3:对所述数据列表进行预处理;
S4:所述SNP序列文件包括碱基,对碱基进行编码,得到二维矩阵;
S5:根据所述二维矩阵得到双通道矩阵。
2.根据权利要求1所述的一种SNP双通道编码方法,其特征在于,S2中,所述SNP输入数据还包括SNP;所述数据列表的列记为:SNPi;i表示第i个SNP;根据所述SNP编号从小到大的顺序对所述数据列表的列进行排序。
3.根据权利要求2所述的一种SNP双通道编码方法,其特征在于,S3中,所述SNP序列文件还包括SNP点位数据;
预处理包括:设定阈值、数据删除以及空值填充;
数据删除包括:在所述数据列表中,将空值大于所述阈值的行或列删除;将等位基因的频率低于1%的列删除;
空值填充包括对出现数据丢失的SNP点位数据进行填充。
4.根据权利要求3所述的一种SNP双通道编码方法,其特征在于,所述阈值为所述数据列表中数值的10%。
5.根据权利要求3所述的一种SNP双通道编码方法,其特征在于,S4中,
所述SNP序列文件还包括SNP序列;所述SNP序列对应一列SNP;每个所述SNP对应一个碱基对;
根据不同所述碱基,并采用one-hot向量编码方式对碱基进行编码,得到碱基矩阵;所述碱基矩阵记为:
其中,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶;T表示该矩阵为转置矩阵;
根据所述SNP点位数据分别选取两个所述碱基矩阵中的一维数据,得到二维矩阵。
6.根据权利要求5所述的一种SNP双通道编码方法,其特征在于,S5中,将二维矩阵的第一维数据存放入第一通道;将二维矩阵的第二维数据存放入第二通道;根据存放入第一通道的第一维数据以及存放入第二通道的第二维数据,得到双通道矩阵;所述双通道矩阵可作为卷积神经网络的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210857188.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种质子交换膜燃料电池热电联产系统及方法
- 下一篇:一种钙离子浓度检测电路





