[发明专利]基因向量模型训练方法、分析基因数据的方法及各自装置在审
申请号: | 202010906477.1 | 申请日: | 2020-09-01 |
公开(公告)号: | CN112151119A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 蔡元哲 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 赵杰 |
地址: | 310024 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 向量 模型 训练 方法 分析 数据 各自 装置 | ||
本说明书实施例提供基因向量模型训练方法、分析基因数据的方法及各自装置,由于所述基因向量模型训练方法从基因序列数据样本中提取出基因片段数据,从所述基因片段数据中提取出若干个k‑mer,将所述基因片段数据作为所述k‑mer的上下文语境以及所述k‑mer作为词输入词向量空间模型进行训练,从而可以得到针对k‑mer输出向量的基因向量模型。
技术领域
本说明书实施例涉及基因分析技术领域,特别涉及基因向量模型训练方法、分析基因数据的方法。本说明书实施例同时涉及基因向量模型训练装置、分析基因数据的装置,计算设备,以及计算机可读存储介质。
背景技术
基因序列数据,例如可以是DNA的碱基对序列,可以是RNA的碱基序列,可以是蛋白质的序列。
以RNA序列为例,RNA序列可以表达一串核酸序列(又叫碱基序列)。RNA序列一共存在四种核苷酸,用A,C,G和T来表示,分别代表腺嘌呤,胞嘧啶,鸟嘌呤,胸腺嘧啶。每个字母代表一种碱基,他们无间隔的排列在一起。每一个物种的RNA序列是不一样的且有规律的。
通过对物种的基因序列数据进行分析,能够实现基因序列数据的匹配、检索、功能区域划分等目的。但是由于基因序列数据较为复杂,如何能够高效地分析基因序列数据成为困扰人们的难题。
发明内容
有鉴于此,本说明书施例提供了基因向量模型训练方法、分析基因数据的方法。本说明书实施例同时涉及基因向量模型训练装置、分析基因数据的装置,计算设备,以及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种基因向量模型训练方法,包括:从基因序列数据样本中提取出基因片段数据;从所述基因片段数据中提取出若干个k-mer;将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。
可选地,所述从基因序列数据样本中提取出基因片段数据包括:以预设长度的窗口,且按预设步长移动所述窗口地从基因序列数据样本中提取出若干个基因片段数据,其中,所述预设步长的长度小于所述预设长度,以使提取的相邻基因片段数据具有部分重叠区域。
根据本说明书实施例的第二方面,提供了一种基因向量模型训练装置,包括:样本片段提取模块,被配置为从基因序列数据样本中提取出基因片段数据;样本碱基提取模块,被配置为从所述基因片段数据中提取出若干个k-mer;训练模块,被配置为将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。
根据本说明书实施例的第三方面,提供了一种分析基因数据的方法,包括:从待分析基因序列数据中提取出基因片段数据;从所述基因片段数据中提取出若干个k-mer;通过将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入如本说明书任一实施例所述的基因向量模型训练方法训练得到的基因向量模型,提取出所述若干个k-mer各自的向量。
可选地,所述方法还包括:将属于同一基因片段数据的k-mer的向量进行归一化处理,得到所述基因片段数据的向量。
可选地,所述从待分析基因序列数据中提取出基因片段数据包括:以预设长度的窗口,且按预设步长移动所述窗口地从待分析基因序列数据中提取出若干个基因片段数据,其中,所述预设步长的长度小于所述预设长度,以使提取的相邻基因片段数据具有部分重叠区域。
可选地,所述方法还包括:基于Doc2vec算法以及所述待分析基因序列数据的若干个k-mer各自的向量,计算出所述待分析基因序列数据的文档向量。
可选地,所述方法还包括:将所述待分析基因序列数据的向量表达与预设的基因向量库中的已知基因向量表达进行比较,得到检索结果集;其中,所述待分析基因序列数据的向量表达是根据所述k-mer的向量确定的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010906477.1/2.html,转载请声明来源钻瓜专利网。