[发明专利]基于ARM微处理器的siRNA干扰效率预测新方法有效
申请号: | 201310000114.1 | 申请日: | 2013-01-04 |
公开(公告)号: | CN103020489A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 刘元宁;张浩;段云娜;常亚萍;张晓旭;韩烨 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 arm 微处理器 sirna 干扰 效率 预测 新方法 | ||
1.基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于包括下列步骤:
1)进行siRNA序列预处理(siRNA序列是由A、U、G、C四种碱基组成的长度为19或21的一串字符);
2)进行siRNA干扰效率的预测。
2.按权利要求1所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤1)所述的siRNA序列预处理包括下列步骤:
1)将siRNA序列输入CPLD(CPLD是复杂可编程逻辑器件,属于大规模集成电路范围,用户能够根据需要自行构造逻辑功能);
2)通过特征提取规则表(存放的是特征对应的编码,通过查此表,即可获得相应siRNA的编码序列)将siRNA序列以编码的形式存储于SRAM(SRAM是静态存储器)中。
3.按权利要求1所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2)所述的siRNA序列干扰效率预测包括下列步骤:
1)将siRNA序列对应的数字化信息,载入到随机森林模型中;
2)根据已知样本的siRNA序列对应的数字化信息,建立优化的随机森林模型,通过调解相应的参数,使模型的泛化误差(泛化误差是分类器对训练集之外数据的误分率)最小;
3)输入需要预测的siRNA序列对应的数字化信息到已建立的随机森林模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器。
4.按权利要求2所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2)所述的特征提取规则表中所用特征如下:
1)siRNA序列特征;
2)mRNA序列特征和结构特征。
5.按权利要求2所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2)所述的特征提取规则表存在于计算机系统中,并可实时调用,它将所获取的siRNA序列,转换为易于系统分析的数字模式。
6.按权利要求3所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2),采用bootstrap抽样方法产生OOB(out-of-bag)数据,进行OOB估计,得到随机森林的泛化误差估计。
7.按权利要求4所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于所用特征1)中提取了下列特征:
1)siRNA序列中每位碱基的数字化编码,A为0.1,U为0.2,G为0.3,C为0.4;
2)siRNA序列中motif(1-3mer)的频率,1mer频率指碱基A、U、G、C在siRNA序列中的频率,2mer频率指碱基组合AA、AU、AG、AC等16个碱基组合在siRNA序列中的频率,3mer频率指AAA、AAU、AAG、AAC等64个碱基组合在siRNA序列中的频率;
3)由能量表示的靶序列与siRNA反义链形成的双链稳定性,按Watson-Crick碱基结合能量规则计算双链结合能,每次取相邻两对碱基结合能量,最后将所有能量求和;
4)siRNA双链5’端能量差,反义链5’端4对碱基能量和与正义链5’端4对碱基能量和之间的差。
8.按权利要求4所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于所用特征2)提取了下列特征:
1)mRNA序列中motif(1-3mer)的频率,1mer频率指碱基A、U、G、C在mRNA序列中的频率,2mer频率指碱基组合AA、AU、AG、AC等16个碱基组合在mRNA序列中的频率,3mer频率指AAA、AAU、AAG、AAC等64个碱基组合在mRNA序列中的频率;
2)mRNA的GC含量,计算碱基G、C在mRNA序列所占比例;
3)mRNA长度,mRNA中碱基个数;
4)mRNA茎比率,mRNA通过结构预测得到的茎区比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310000114.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:视频单元的复杂度生成方法及装置
- 下一篇:一种故障注入方法及系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用