[发明专利]基因向量模型训练方法、分析基因数据的方法及各自装置在审
申请号: | 202010906477.1 | 申请日: | 2020-09-01 |
公开(公告)号: | CN112151119A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 蔡元哲 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 赵杰 |
地址: | 310024 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 向量 模型 训练 方法 分析 数据 各自 装置 | ||
1.一种基因向量模型训练方法,包括:
从基因序列数据样本中提取出基因片段数据;
从所述基因片段数据中提取出若干个k-mer;
将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。
2.根据权利要求1所述的方法,所述从基因序列数据样本中提取出基因片段数据包括:
以预设长度的窗口,且按预设步长移动所述窗口地从基因序列数据样本中提取出若干个基因片段数据,其中,所述预设步长的长度小于所述预设长度,以使提取的相邻基因片段数据具有部分重叠区域。
3.一种基因向量模型训练装置,包括:
样本片段提取模块,被配置为从基因序列数据样本中提取出基因片段数据;
样本碱基提取模块,被配置为从所述基因片段数据中提取出若干个k-mer;
训练模块,被配置为将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。
4.一种分析基因数据的方法,包括:
从待分析基因序列数据中提取出基因片段数据;
从所述基因片段数据中提取出若干个k-mer;
通过将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入如权利要求1或2所述的基因向量模型训练方法训练得到的基因向量模型,提取出所述若干个k-mer各自的向量。
5.根据权利要求4所述的方法,还包括:
将属于同一基因片段数据的k-mer的向量进行归一化处理,得到所述基因片段数据的向量。
6.根据权利要求4所述的方法,所述从待分析基因序列数据中提取出基因片段数据包括:
以预设长度的窗口,且按预设步长移动所述窗口地从待分析基因序列数据中提取出若干个基因片段数据,其中,所述预设步长的长度小于所述预设长度,以使提取的相邻基因片段数据具有部分重叠区域。
7.根据权利要求4所述的方法,还包括:
基于Doc2vec算法以及所述待分析基因序列数据的若干个k-mer各自的向量,计算出所述待分析基因序列数据的文档向量。
8.根据权利要求4-7任一项所述的方法,还包括:
将所述待分析基因序列数据的向量表达与预设的基因向量库中的已知基因向量表达进行比较,得到检索结果集;
其中,所述待分析基因序列数据的向量表达是根据所述k-mer的向量确定的。
9.根据权利要求8所述的方法,还包括:
在所述检索结果集中,使用预设的基因序列数据匹配算法筛查出与所述待分析基因序列数据匹配的已知基因。
10.一种分析基因数据的装置,包括:
待分析片段提取模块,被配置为从待分析基因序列数据中提取出基因片段数据;
待分析碱基提取模块,被配置为从所述基因片段数据中提取出若干个k-mer;
向量提取模块,被配置为通过将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入如权利要求1或2所述的基因向量模型训练方法训练得到的基因向量模型,提取出所述若干个k-mer各自的向量。
11.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
从基因序列数据样本中提取出基因片段数据;
从所述基因片段数据中提取出若干个k-mer;
将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010906477.1/1.html,转载请声明来源钻瓜专利网。