[发明专利]一种sgRNA的靶标活性预测方法、装置、设备和存储介质在审
| 申请号: | 202110569021.5 | 申请日: | 2021-05-25 |
| 公开(公告)号: | CN113409889A | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 邹权;牛梦婷 | 申请(专利权)人: | 电子科技大学长三角研究院(衢州) |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B5/00;G06K9/62 |
| 代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 向群 |
| 地址: | 324003 浙江省衢*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 sgrna 靶标 活性 预测 方法 装置 设备 存储 介质 | ||
本申请提供了一种sgRNA的靶标活性预测方法、装置、设备和存储介质。方法包括:获取sgRNA序列数据集;对所述sgRNA序列数据集进行序列特征提取,得到多个特征信息;将所述多个特征信息进行融合,得到特征集;基于所述特征集对种子模型进行训练,得到活性预测模型;获取待预测sgRNA序列;基于所述活性预测模型,预测所述待预测sgRNA序列的靶标活性。能够确定sgRNA的靶标活性。
技术领域
本申请涉及生物信息技术领域,特别是涉及一种sgRNA的靶标活性预测方法、装置、设备和存储介质。
背景技术
单导RNA(single-guide RNA,sgRNA)是一种引导RNA,由两个RNA(tracRNA和crRNA)融合而成。这些RNA可以结合到cas9蛋白,并引导cas9酶到基因组DNA的目标区域,并对DNA进行切割。sgRNA是CRISPR/Cas9基因敲除系统的重要组成部分,在基因编辑和疾病治疗方面具有重要意义。高活性的sgRNA对靶标将显示出较高的突变效率,提高后续筛选和鉴定方案的效率。
因此,在基因编辑之前,如何确定sgRNA的靶标活性是亟待解决的问题。
发明内容
本申请提供一种sgRNA的靶标活性预测方法、装置、设备和存储介质,能够确定sgRNA的靶标活性。
本申请实施例第一方面提供了一种sgRNA的靶标活性预测方法,包括:
获取sgRNA序列数据集;
对所述sgRNA序列数据集进行序列特征提取,得到多个特征信息;
将所述多个特征信息进行融合,得到特征集;
基于所述特征集对种子模型进行训练,得到活性预测模型;
获取待预测sgRNA序列;
基于所述活性预测模型,预测所述待预测sgRNA序列的靶标活性。
可选地,基于所述特征集对种子模型进行训练,得到活性预测模型,包括:
从所述特征集中选取出最优特征信息,得到不平衡特征集;
对所述不平衡特征集进行上采样处理,得到平衡特征集;
基于所述平衡特征集对所述种子模型进行训练,得到活性预测模型。
可选地,对所述不平衡特征集进行上采样处理,得到平衡特征集,包括:
获取采样率;
基于所述采样率对所述不平衡特征集进行上采样处理,得到平衡特征集。
可选地,获取采样率,包括:
基于所述不平衡特征集运行支持向量机,得到支持向量集;
确定所述支持向量集中的元素的多个邻域;
基于所述多个邻域,对所述支持向量集中的元素进行分类,得到多数类样本、边界样本和少数类样本;
基于所述多数类样本、所述边界样本和所述少数类样本,确定采样率。
可选地,基于所述采样率对所述不平衡特征集进行上采样处理,得到平衡特征集,包括:
获取边界样本和少数类样本的多个最近邻;
基于所述边界样本和所述多个最近邻,对所述少数类样本进行插值处理,以使插值处理后的所述少数类样本与所述多数类样本的数量相平衡,以获得平衡特征集。
可选地,所述sgRNA序列数据集包括:高活性sgRNA序列数据和低活性sgRNA序列数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(衢州),未经电子科技大学长三角研究院(衢州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110569021.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铸件表面处理方法
- 下一篇:一种应用于景观式地埋垃圾收运站的智能控制系统





