[发明专利]一种非结构化数据管理的全过程建模方法有效

专利信息
申请号: 201210226821.8 申请日: 2012-06-29
公开(公告)号: CN102779186A 公开(公告)日: 2012-11-14
发明(设计)人: 潘云鹤;庄越挺;孙建伶;陈岭;邵健;魏宝刚;鲁伟明;陈根才;唐燕琳 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 周烽
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种非结构化数据管理的全过程建模方法,包括建立Repository存储模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment环境模型五个步骤,将模型的内容作为元数据进行存储,并将其映射到具体的数据引擎进行操作;本发明的方法可以用来管理包含文本、音频、视频、图像等非结构化数据,以满足用户对非结构化数据存储、关联和检索等管理需求。
搜索关键词: 一种 结构 数据管理 全过程 建模 方法
【主权项】:
一种非结构化数据管理的全过程建模方法,其特征在于,该方法包括以下步骤:(1)建立Repository存储模型,该步骤由以下子步骤来实现:(1.1)如果是一个新的非结构化数据管理应用,则建立一个新的命名空间NameSpace,指定命名空间NameSpace的名称;否则,直接跳到1.2;(1.2)进入应用的命名空间;(1.3)是否需要创建UType,如果不需要则存储模型创建结束,否则创建UType,指定UType的名称;(1.4)查看模型中是否有需要的UType,可以对模型中的UType进行复用和扩展,如果没有则跳到1.5,否则继承模型中满足需求的UType,UType支持多重继承,继承UType将继承父UType的所有特征和分析、索引模型;(1.5)向UType中添加特征,查看模型中是否有满足条件的特征类型,如果有则直接向UType中添加特征,指定特征名和特征类型,否则跳到1.6,创建新的特征类型;(1.6)基于模型提供的Integer、String、Blob、Vector、Matrix等基本数据类型建立特征类型,指定特征类型的名称和基本数据类型;本步骤中的过程又可以分为以下子步骤:(1.6.1)指定基本数据类型时,如果FeatureType的类型是Vector,则需要指定基本数据类型Integer或Float或Double和Vector的维数;(1.6.2)如果FeatureType的类型是Matrix,则需要指定基本数据类型Integer或Float或Double和Matrix的行数、列数;(1.6.3)如果FeatureType是Link类型,若Link类型需要指定关联的UType,如果该UType不存在,则需要跳到1.4先创建非结构化数据类型UType,再将UType关联到该FeatureType;若Link类型是无指定UType类型的,则继续重复1.5、1.6向UType中添加FeatureType,直到添加FeatureType结束;(1.7)建立UType的实例化对象集合Collection,需要指定数据集合的名称和对应的UType类型,并选择对象集合的存储方式,如果应用希望支持事务等操作而数据量又不大,则应该选择关系型数据库;如果应用具有海量的数据,则应该选择分布式键值数据库;继续重复1.4~1.7创建UType和数据集合,直到结束;(2)建立Analysis分析模型,该步骤由以下子步骤来实现:(2.1)进入命名空间;(2.2)如果用于分析的插件已存在系统中,则直接跳到2.3,否则先上传分析插件;上传插件的步骤又可以具体分为以下几步:(2.2.1)指定分析插件名称和分析算法;(2.2.2)指定插件输入输出的名称和特征类型列表;(2.2.3)指定分析插件运行的主文件,便于运行时调用插件;(2.2.4)如果插件需要指定可配置的参数,则指定可配置参数的名称和类型,否则上传插件完成;(2.3)选择合适的算法进行分析,选择2.2.1中指定的分析插件名称,如果分析算法有可配置的参数,则跳到2.4,否则直接跳到2.5;(2.4)指明步骤2.3中指定需要配置参数的名称和值;(2.5)指定分析算法数据输入,即UType和特征列表,按照插件的输入列表顺序指定;(2.6)指定分析算法数据输出,即UType及其中的特征列表,按照插件的输出列表顺序指定;(2.7)对于输出的特征列表可以指定UType中已经存在的特征,也可以在UType中添加新的特征,按照存储模型中的步骤1.6指定特征名称和特征类型,方便模型的扩展;(3)建立Index索引模型,该步骤由以下子步骤来实现:(3.1)进入命名空间;(3.2)指定UType名称;(3.3)选择非结构化管理系统中合适的索引方式;(3.4)指定索引方式的距离计算参数;(3.5)指定需要索引的UType和特征列表,对于可以支持一次索引多个项的索引可指定多个特征;(4)建立Search搜索模型,该步骤由以下子步骤来实现:(4.1)进入命名空间;(4.2)指定查询的UType名称;(4.3)选择合适的查询方式,包括属性查询、样例查询、全文查询、XML查询及其混合查询,查询方式需要该UType上的索引模型的支持;如果特征建立了多个索引,每一种查询方式可以指定合适的索引完成,每一种查询方式的含义是:(4.3.1)属性查询,对数值和简单文字的属性判断;(4.3.2)样例查询,用图像、视频等样例来查询相似样例;(4.3.3)全文查询,复杂文字的精确匹配和模糊匹配;(4.3.4)XML查询,XQuery查询;(4.4)指定对各查询条件的权重,用来计算查询结果排名;(4.5)定义查询相关性反馈,接收用户对查询结果的评价,为用户提供二次查询服务;如果用户从查询结果中选择正相关样例,则加上这些正相关样例的相似查询反馈给用户;如果用户从查询结果中选择反相关样例,则加上这些反相关样例的非相似查询反馈给用户;(5)建立Environment环境模型,该步骤由以下子步骤来实现:(5.1)进入命名空间;(5.2)指定UType名称;(5.3)如果UType实例化的数据集合需要进行分析,则创建分析模型,否则直接跳到5.4;(5.4)如果UType实例化的数据集合需要建立索引,则创建索引模型,如果分析模型的输出结果为索引模型的输入,则系统将对分析模型和索引模型的执行顺序进行排序;否则直接跳到5.5;(5.5)如果没有分析模型或者索引模型,则直接跳到5.6,否则需要设定在数据集合上执行分析或索引模型定义的具体方式,包括增量式和批量式两种方式;(5.5.1)如果需要创建增量式任务,需要指定数据集合Collection的名称,对应的分析或索引模型,这样在用户插入一条数据的时候就会根据分析或索引模型的定义对数据对象执行增量式分析或索引任务;(5.5.2)如果需要创建批量式任务,需要指定数据集合Collection的名称,对应的分析或索引模型,如果不立即执行批量式任务,则需要指定执行任务的时间,在到达指定时间后可以根据分析或索引模型的定义对指定的Collection中所有的数据执行分析或索引任务;(5.6)如果需要创建搜索模型,则创建搜索模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210226821.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top