[发明专利]一种非结构化数据管理的全过程建模方法有效

申请号：	201210226821.8	申请日：	2012-06-29
公开（公告）号：	CN102779186A	公开（公告）日：	2012-11-14
发明（设计）人：	潘云鹤;庄越挺;孙建伶;陈岭;邵健;魏宝刚;鲁伟明;陈根才;唐燕琳	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	周烽
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种非结构化数据管理的全过程建模方法，包括建立Repository存储模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment环境模型五个步骤，将模型的内容作为元数据进行存储，并将其映射到具体的数据引擎进行操作；本发明的方法可以用来管理包含文本、音频、视频、图像等非结构化数据，以满足用户对非结构化数据存储、关联和检索等管理需求。
搜索关键词：	一种结构数据管理全过程建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种非结构化数据管理的全过程建模方法，其特征在于，该方法包括以下步骤：（1）建立Repository存储模型，该步骤由以下子步骤来实现：（1.1）如果是一个新的非结构化数据管理应用，则建立一个新的命名空间NameSpace，指定命名空间NameSpace的名称；否则，直接跳到1.2；（1.2）进入应用的命名空间；（1.3）是否需要创建UType，如果不需要则存储模型创建结束，否则创建UType，指定UType的名称；（1.4）查看模型中是否有需要的UType，可以对模型中的UType进行复用和扩展，如果没有则跳到1.5，否则继承模型中满足需求的UType，UType支持多重继承，继承UType将继承父UType的所有特征和分析、索引模型；（1.5）向UType中添加特征，查看模型中是否有满足条件的特征类型，如果有则直接向UType中添加特征，指定特征名和特征类型，否则跳到1.6，创建新的特征类型；（1.6）基于模型提供的Integer、String、Blob、Vector、Matrix等基本数据类型建立特征类型，指定特征类型的名称和基本数据类型；本步骤中的过程又可以分为以下子步骤：（1.6.1）指定基本数据类型时，如果FeatureType的类型是Vector，则需要指定基本数据类型Integer或Float或Double和Vector的维数；（1.6.2）如果FeatureType的类型是Matrix，则需要指定基本数据类型Integer或Float或Double和Matrix的行数、列数；（1.6.3）如果FeatureType是Link类型，若Link类型需要指定关联的UType，如果该UType不存在，则需要跳到1.4先创建非结构化数据类型UType，再将UType关联到该FeatureType；若Link类型是无指定UType类型的，则继续重复1.5、1.6向UType中添加FeatureType，直到添加FeatureType结束；（1.7）建立UType的实例化对象集合Collection，需要指定数据集合的名称和对应的UType类型，并选择对象集合的存储方式，如果应用希望支持事务等操作而数据量又不大，则应该选择关系型数据库；如果应用具有海量的数据，则应该选择分布式键值数据库；继续重复1.4~1.7创建UType和数据集合，直到结束；（2）建立Analysis分析模型，该步骤由以下子步骤来实现：（2.1）进入命名空间；（2.2）如果用于分析的插件已存在系统中，则直接跳到2.3，否则先上传分析插件；上传插件的步骤又可以具体分为以下几步：（2.2.1）指定分析插件名称和分析算法；（2.2.2）指定插件输入输出的名称和特征类型列表；（2.2.3）指定分析插件运行的主文件，便于运行时调用插件；（2.2.4）如果插件需要指定可配置的参数，则指定可配置参数的名称和类型，否则上传插件完成；（2.3）选择合适的算法进行分析，选择2.2.1中指定的分析插件名称，如果分析算法有可配置的参数，则跳到2.4，否则直接跳到2.5；（2.4）指明步骤2.3中指定需要配置参数的名称和值；（2.5）指定分析算法数据输入，即UType和特征列表，按照插件的输入列表顺序指定；（2.6）指定分析算法数据输出，即UType及其中的特征列表，按照插件的输出列表顺序指定；（2.7）对于输出的特征列表可以指定UType中已经存在的特征，也可以在UType中添加新的特征，按照存储模型中的步骤1.6指定特征名称和特征类型，方便模型的扩展；（3）建立Index索引模型，该步骤由以下子步骤来实现：（3.1）进入命名空间；（3.2）指定UType名称；（3.3）选择非结构化管理系统中合适的索引方式；（3.4）指定索引方式的距离计算参数；（3.5）指定需要索引的UType和特征列表，对于可以支持一次索引多个项的索引可指定多个特征；（4）建立Search搜索模型，该步骤由以下子步骤来实现：（4.1）进入命名空间；（4.2）指定查询的UType名称；（4.3）选择合适的查询方式，包括属性查询、样例查询、全文查询、XML查询及其混合查询，查询方式需要该UType上的索引模型的支持；如果特征建立了多个索引，每一种查询方式可以指定合适的索引完成，每一种查询方式的含义是：（4.3.1）属性查询，对数值和简单文字的属性判断；（4.3.2）样例查询，用图像、视频等样例来查询相似样例；（4.3.3）全文查询，复杂文字的精确匹配和模糊匹配；（4.3.4）XML查询，XQuery查询；（4.4）指定对各查询条件的权重，用来计算查询结果排名；（4.5）定义查询相关性反馈，接收用户对查询结果的评价，为用户提供二次查询服务；如果用户从查询结果中选择正相关样例，则加上这些正相关样例的相似查询反馈给用户；如果用户从查询结果中选择反相关样例，则加上这些反相关样例的非相似查询反馈给用户；（5）建立Environment环境模型，该步骤由以下子步骤来实现：（5.1）进入命名空间；（5.2）指定UType名称；（5.3）如果UType实例化的数据集合需要进行分析，则创建分析模型，否则直接跳到5.4；（5.4）如果UType实例化的数据集合需要建立索引，则创建索引模型，如果分析模型的输出结果为索引模型的输入，则系统将对分析模型和索引模型的执行顺序进行排序；否则直接跳到5.5；（5.5）如果没有分析模型或者索引模型，则直接跳到5.6，否则需要设定在数据集合上执行分析或索引模型定义的具体方式，包括增量式和批量式两种方式；（5.5.1）如果需要创建增量式任务，需要指定数据集合Collection的名称，对应的分析或索引模型，这样在用户插入一条数据的时候就会根据分析或索引模型的定义对数据对象执行增量式分析或索引任务；（5.5.2）如果需要创建批量式任务，需要指定数据集合Collection的名称，对应的分析或索引模型，如果不立即执行批量式任务，则需要指定执行任务的时间，在到达指定时间后可以根据分析或索引模型的定义对指定的Collection中所有的数据执行分析或索引任务；（5.6）如果需要创建搜索模型，则创建搜索模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210226821.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种非结构化数据管理的全过程建模方法有效

专利文献下载