[发明专利]一种基于多序列比对遗传算法的处理方法及装置无效
申请号: | 201210045408.1 | 申请日: | 2012-02-27 |
公开(公告)号: | CN102622535A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 贾铁军 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06N3/12 |
代理公司: | 上海思微知识产权代理事务所(普通合伙) 31237 | 代理人: | 郑玮 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 遗传 算法 处理 方法 装置 | ||
技术领域
本发明涉及信息处理技术领域,特别涉及一种基于多序列比对遗传算法的处理方法及装置。
背景技术
目前,序列比对(Sequence Alignment,SA)是分析探究生物信息本质特征最基本、最重要的一项关键技术,通过序列比对可以发现生物序列中的功能、结构和进化等重要信息。多序列比对(Multiple Sequence Alignment,MSA)是生物信息中对多重序列进行比对的基本的有效方法,具有极为重要而广泛的应用,对于其他相近或相关学科在特征信息识别、检测、故障诊断、制药医疗和信息处理等方面也有较好地应用和重要的借鉴作用。
生物序列的比对是生物信息学中最基本、最重要的一项处理工作,通过序列比对可以揭示并发现生物序列中的功能、结构以及进化信息,在序列分析、基因识别、蛋白质结构预测、生物进化树的构建等领域中有着广泛的应用。生物序列的信息量巨大,对其进行比对操作花费时间太大,所以,序列比对的启发式算法与并行计算已经成为研究的一个热点问题。现在,国内外在序列比对算法的方面的研究,主要采用为确定多个序列之间的相似性及同源性,而将它们按照一定的规律排列与比较,其计算量与信息处理繁杂程度非常独大,采用传统一般方法根本无法实现。将多个序列排列一起标明其相似之处。序列中可以插入间隔(常用“-”表示)。对应的相同或相似的符号(在核酸中是A,T/U,C,G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。比对中错配与突变相应,空位与插入或缺失对应。这一方法常用于研究由共同原祖进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。序列比对还可用于语言进化或文本间相似性之类的研究。
生物信息学是一门新兴的交叉学科,所研究的对象是生物学的观测数据,研究方法则是从各种计算模型技术衍生出来的.数学中的各个领域如统计学、概率论、运筹学、计算数学等均在生物信息学中有广泛的应用。虽然在序列比对的启发式算法与并行计算新技术、新方法、新应用层出不穷,如多重序列比对的遗传算法、蚁群求解算法Ant-Align、聚类分析法、粒子群算法、模拟退火算法、A星算法、傅立叶变换法等,但是,在比对精度、速度、稳定性等方面都有一定程度的缺陷或不足,特别是在具体关键算法方面需要进行进一步改进、创新和完善。由于生物序列较长,求解序列比对特别是多重序列比对的计算复杂度较高。可以证明,即使对于最简单的计分函数,寻找最优的多重序列比对也是一个NP-完全问题。在实际计算中不太可能用精确的算法求得多重序列的准确比对,而只能用启发式的算法在合理的时间内求得近似解。本文研究了对生物序列如何用启发式的算法,在综合考虑解的正确性以及计算速度两方面因素的前提下,求得质量较高的多序列比对。
目前,国内外虽然在序列比对的启发式算法与并行计算新技术、新方法、新应用层出不穷,如多重序列比对的遗传算法、蚁群求解算法Ant-Align、聚类分析法、粒子群算法、模拟退火算法、A星算法、傅立叶变换法和其他神经网络等方法及单一算法,但是,在比对精度、速度、稳定性等方面都有一定程度的缺陷或不足,特别是在具体关键算法方面需要进行进一步改进、创新和完善。,有效的解决了局部收敛的问题,加强了算法寻求全局最优解的能力,但是,在比对精度、速度、稳定性等方面都有一定程度的缺陷或不足。目前,采用的单一粗糙集(Roug Set,RS)处理处理模糊性与不确定性信息技术,或LVQ神经网络分类识别算法,虽然在局部最优解收敛等某些方面有所提高,但在多序列比对效率和速度方面尚有不足。
针对现有技术遗传算法存在的收敛慢和易陷入局部最优的不足,以及目前属性约简算法计算复杂度高,不适合规模数据约简的弱点和在描述属性集合等方面的不足的问题,提出一种基于多序列比对遗传算法的处理方法及装置是信息处理技术领域目前急待解决的问题之一。
发明内容
有鉴于此,本发明实施例提出了一种基于多序列比对遗传算法的处理方法及装置,通过构建简约分类识别模型,并对具体的实际问题确定参数集,接着对确定的参数集进行编码设计,然后简约分类初始化后的子种群,最后对子种群进行算法计算并判断其性能,依据判断结果进行处理,本方案有助于高效比对识别,弥补了遗传算法存在的收敛慢和易陷入局部最优的不足,以及目前属性约简算法计算复杂度高,不适合规模数据约简的弱点和在描述属性集合等方面的不足,提高了处理效率。
为解决上述技术问题,本发明实施例的目的是通过以下技术方案实现的:
一种基于多序列比对遗传算法的处理方法,包括:
步骤一、构建简约分类识别模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210045408.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单行沙土花生收获机
- 下一篇:一种医药制备与供给系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用