[发明专利]基于元图学习的长链非编码RNA亚细胞定位预测方法在审
申请号: | 202210064104.3 | 申请日: | 2022-01-20 |
公开(公告)号: | CN115295079A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 蔡俊哲;刘琳;唐麟 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 昆明顺新图盛专利代理事务所(特殊普通合伙) 53213 | 代理人: | 廖萍;李凤仙 |
地址: | 650500 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 长链非 编码 rna 细胞 定位 预测 方法 | ||
1.一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:包括以下步骤:
Step1、构建lncRNA亚细胞定位预测训练数据集;
Step2、平衡数据集中不同类别之间样本的数量;
Step3、将数据集中的向量数据构建成图结构;
Step4、使用图卷积神经网络GCN和模型不可知元学习MAML结合的算法对lncRNA亚细胞定位进行预测;
Step5、评价指标。
2.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step1中所述lncRNA亚细胞定位预测训练数据集是从lncRNA序列中提取k-mer频率向量作为lncRNA序列的初级特征,其中k的取值代表核苷酸片段的长度,该数据集类别标签分为|C|个种类。
3.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step2中所述平衡数据集中不同类别之间样本的数量是采用合成少数类过采样技术SMOTE来平衡。
4.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step3中所述构建的图由三部分组成,节点集V、特征集X和边集E。
5.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step4中所述GCN和MAML结合的算法包括以下步骤:
Step4-1、抽取局部图:把为lncRNA序列构建好图数据记为G=(V,E,X),把图G中每个节点{v1,v2,...,vn}及其邻居节点抽取出来,构成n个节点对应的子图{G1,G2,...,Gn}。其中Gi∈G表示第i个节点的局部图。
Step4-2、划分数据集:首先根据10折交叉验证法将数据集D={G1,G2,...,Gn}切分为Dtrain={Ga,...,Go}、Dval={Gb,...,Gp}和Dtest={Gc,...,Gq}3个数据集,且满足条件:然后按照MAML的方式从Dtrain中反复随机选取|C|×(ksupport+kquery)个样本Gi组成m个任务Ttrain={T1,T2,...,Tm},其中|C|表示类别数量,ksupport,kqueryand m是超参数;Dval和Dtest中的样本分别组成单个任务Tval和Ttest;最后将每个任务Ti进一步划分为支持集和查询集,分别记为Ti-support和Ti-query;
Step4-3、元训练:先将Ttrain中m个任务的Ttrain-support分别放到m个初始参数为θ的GCN中训练,分别更新后得到m个对应的参数{θ1,θ2,...,θm};然后用Ttrain中m个任务的Ttrain-query和计算总损失进而更新θ,最后得到元参数θ′;
Step4-4、元测试:利用Ttest中的Ttest-support微调以元参数θ’为初始参数的GCN,然后用Ttest-query来评估fθ′的性能。
6.根据权利要求2所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step5中所述的评价指标包括:准确率Acc、精确度P、召回率R和分数F1;其计算公式如下:
其中TP,FP和FN分别代表预测结果中的真正例,假正例和假反例,|C|类别标签的种类数量,i代表具体某个标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210064104.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:经鼻腔进入血循环的给药装置及其应用方法
- 下一篇:一种车用安全通道