[发明专利]一种基因序列与专利整合关联的方法与系统在审
申请号: | 201710303974.0 | 申请日: | 2017-05-03 |
公开(公告)号: | CN108804461A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 陈恒;刘延淮;陈成材;张永娟;张丽雯;陈涛 | 申请(专利权)人: | 中国科学院上海生命科学研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/22 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200031 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 整合 基因序列 关联 干细胞 检索 生物技术 基因序列相似性 文本挖掘 相关基因 信息服务 专利基因 序列库 构建 | ||
本发明公开了一种基因序列与专利整合关联的方法与系统,使得用户能够得到较好的基因序列检索与相关专利的关联整合信息服务。其技术方案为:通过对干细胞生物技术专利基因文本挖掘技术、干细胞生物技术专利相关基因序列库的构建,实现了基因序列相似性检索与专利文献整合关联。
技术领域
本发明涉及一种基因序列相似性检索相关的技术,尤其涉及将基因序列与专利信息进行整合关联的方法与系统。
背景技术
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。文本挖掘涵盖了多种技术,包括信息抽取、信息检索、自然语言处理和数据挖掘技术等,它的主要用途是从原本未经使用的文本中抽取出未知的知识。
在基因序列的研究领域具有很多和基因序列研究相关的专利技术,然而目前不存在将基因序列和其相关的专利信息整合在一起的系统。因为没有这样的系统,所以基因研究者便无法很方便的知道自己研究的基因序列相关的专利信息,造成研发效率的降低。
如何借鉴文本挖掘技术对基因序列和其相关的专利信息进行关联和整合,是目前亟待解决的技术难题。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种基因序列与专利整合关联的方法与系统,使得用户能够得到较好的基因序列检索与相关专利的关联整合信息服务。
本发明的技术方案为:本发明揭示了一种基因序列与专利整合关联的方法,包括:
步骤1:基于干细胞生物技术专利知识数据库,借助干细胞相关的基因文本挖掘工具字典实现干细胞生物技术专利知识数据库中的基因文本和相关专利的挖掘和发现,生成包含了已被挖掘标记的基因和已被挖掘标记的基因相关专利及其对应关系的干细胞生物技术专利知识数据仓库;
步骤2:基于所生成的干细胞生物技术专利知识数据仓库,借助于基因序列数据库和基因序列相似性检索,将数字序号标识过的一系列相似性基因序列和干细胞生物技术专利知识数据仓库进行整合关联,生成基因序列与干细胞生物技术专利的整合关联关系。
根据本发明的基因序列与专利整合关联的方法的一实施例,步骤1进一步包括:
步骤a:构建干细胞生物技术专利知识数据库和干细胞相关的基因文本挖掘工具字典;
步骤b:以已构建的干细胞相关的基因文本挖掘工具字典为依据,以干细胞生物技术专利知识数据库中的干细胞相关基因名词为挖掘和发现对象,进行基因文本挖掘和高亮显示;
步骤c:去除数据挖掘和信息整合结果中的非法信息。
根据本发明的基因序列与专利整合关联的方法的一实施例,在步骤a中,基因文本挖掘工具字典中的每个基因名词前用数字序号进行标识。
根据本发明的基因序列与专利整合关联的方法的一实施例,在步骤b中,使干细胞生物技术专利知识数据库中的基因名词及专利号与干细胞生物技术专利相关的基因序列数据库的规范数字序号进行一一对应的整合和关联。
根据本发明的基因序列与专利整合关联的方法的一实施例,在步骤c中,去除非法信息包括去除假阳性基因挖掘结果。
根据本发明的基因序列与专利整合关联的方法的一实施例,步骤2进一步包括:
步骤d:构建干细胞生物技术专利相关的基因序列数据库;
步骤e:将已构建的基因序列数据库转变为BLAST数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海生命科学研究院,未经中国科学院上海生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710303974.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于SQL的查询语言
- 下一篇:一种广告推荐方法、装置及服务器