[发明专利]生物特征序列数据处理方法及其处理系统在审

申请号：	201610069212.4	申请日：	2016-01-27
公开（公告）号：	CN105760714A	公开（公告）日：	2016-07-13
发明（设计）人：	李盼盼;师佩;吕琪;吴涛;董亚非	申请（专利权）人：	陕西师范大学
主分类号：	G06F19/24	分类号：	G06F19/24;G06F19/28
代理公司：	暂无信息	代理人：	暂无信息
地址：	710119 陕西***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	生物特征序列数据处理方法及其处理系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及合成生物学技术领域，特别涉及生物特征序列数据处理方法及其处理系统。

背景技术

随着合成生物学的发展，生物部件数据量越来越大，重复率越来越高，各种数据文件格式不同、不能通用已经成为合成生物学家共同面对的问题。众所周知，生物部件的本质是其序列，生物部件的基础是不同DNA序列的组装，装配的目标是使部件具有特定功能且较为完善。现在很多合成生物学聚焦在了部件的组装准则上，提出了许多新的装配策略例如：BioBrick、BglBrick。

许多杂志上提供了完整的序列及其描述，但用户获取有限制。许多杂志都没有关于质粒序列的描述，Addgene它解决了质粒上的数据信息问题，它提供了完整的质粒序列还有注释，但他们的努力工作也只是覆盖了已发表过的一小部分质粒。回顾之前相同类型的文章，涉及到的生物部件的数据量非常少，只有大约2000个，可供分析的数据不够全面。

iGEM和GenoCAD中登记了标准生物部件，数据量大且提交的数据是合成生物学家确认过的且所提交的数据格式统一。但只有向iGEM上提交数据却没有人对数据进行整理分析，这里只是原始数据表，存在大量的冗余信息。

发明内容

本发明实施例提供了生物特征序列数据处理方法及其处理系统，用以解决现有技术中生物特征序列数据量小以及数据存在冗余的问题。

生物特征序列数据处理方法，包括以下步骤：

在iGEM数据库中获取数据，并存储在原始数据表中；

将所述原始数据表中每个生物质粒进行拆分，获得多个特征序列，并存储在第一特征序列表中，所述第一特征序列表中存储有每个特征序列的名称、类型和序列信息；

在所述第一特征序列表中查询序列、名称和类型均相同的特征序列，每个保留一条，并存储在第二特征序列表中；

在所述第二特征序列表中查询序列相同，但是名称不同的特征序列，存储在第一名称数据表中；

在所述第一名称数据表中将存储的特征序列按照预设名称筛选规则进行删除，删除不符合所述预设名称筛选规则特征序列，获得第二名称数据表；

在所述第二名称数据表中查询序列和名称均相同，但是类型不同的特征序列，存储在第一类型数据表中；

在所述第一类型数据表中将存储的特征序列按照预设类型筛选规则进行删除，删除不符合所述预设类型筛选规则的特征序列，获得第二类型数据表；

在所述第二类型数据表中查询序列中含有除a、g、c和t字符之外的字符的特征序列，并删除该些特征序列，获得第三特征序列表。