[发明专利]基于LF熵的DNA序列相似性检验方法有效
申请号: | 201610970981.1 | 申请日: | 2016-11-04 |
公开(公告)号: | CN106557668B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 林劼;魏静;徐彭娜;江育娥 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 张耕祥 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开基于LF熵的DNA序列相似性检验方法,通过对原始的DNA序列按着L‑Gram模型进行映射,得到一个新的数值序列。通过计算N条序列的LF熵值构成的矩阵,进而得出其标准熵,并投影到hamming空间进行序列相似性比对。本发明综合考虑到在转换后的特征空间包含足够的原始DNA信息,避免DNA信息的丢失;将每一段DNA序列转为一个新的空间,可以提高运算速度和精确度。 | ||
搜索关键词: | 基于 lf dna 序列 相似性 检验 方法 | ||
【主权项】:
1.基于LF熵的DNA序列相似性检验方法,其特征在于:其包括以下步骤:(1)从DNA片段中获取原始DNA序列;(2)将原始DNA序列按L‑Gram模型进行映射得到对应的数字序列,预处理字长为L,获得|∑|L个待处理字,其中|∑|指的是DNA序列字符集的大小;(3)计算数字序列中每个待处理字的LF值Xt,进而获得LF值序列X={X1,X2……Xn}其中n为LF值序列的长度;所述LF值Xt为待处理字在数字序列中两次出现时对应的两个位置间的距离的倒数,LF值Xt的计算公式如下:
其中W表示待处理字,t表示待处理字出现的位置顺序;m代表待处理字出现的频数;(4)计算N条LF值序列的LF熵值h:LF熵值h反映的是待处理字在DNA序列分布中位置的重要性;所述步骤(4)中LF值序列的LF熵值的计算方法如下:a.计算获取LF值序列的部分和序列S,S={S1,S2……,Sm}={X1,X1+X2,X1+X2+X3,……,};其中:S1=X1;S2=X1+X2;S3=X1+X2+X3;……Sm=X1+X2+…+Xm;b.计算LF值序列的部分和S的总和Z,Z=S1+S2+...+Sm;c.计算序列每个位置的离散概率P[t],即为
St为对应的第t个部分和;d.计算LF值序列的LF熵值h,
P[t]为离散概率P的第t个离散概率;(5)基于LF熵值计算N条序列的标准熵值HLF,标准熵值HLF的计算公式如下:
h(Wt)是字Wt的熵,t表示待处理字出现的位置顺序,m代表待处理字出现的频数;(6)将N条序列的标准熵值HLF采用K‑means聚类方法进行聚类并投影至Hamming空间,得到数值序列;(7)将每条数值序列均分为d+1序列段,d为大于零的整数,并将任一数值序列与其他数值序列的段进行一一比较,将与该任一数值序列存在相等序列段的序列均作为该任一数值序列的候选序列;(8)计算该任一数值序列与其所有候选序列的海明距离;(9)从该任一数值序列的候选序列中删除与该任一数值序列的海明距离大于d的候选序列;(10)确定最邻近序列查询结果:候选序列的个数不大于k时,k为大于零的整数,则候选序列作为最近邻序列查询结果;候选序列的个数大于k时,则将候选序列按对应海明距离从小到大排序保留k个候选序列,并以该k条候选序列作为最近邻序列查询结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610970981.1/,转载请声明来源钻瓜专利网。