[发明专利]面向Web2.0标签图片共享空间的图片检索聚类方法有效

专利信息
申请号: 200910152883.7 申请日: 2009-09-18
公开(公告)号: CN101694657A 公开(公告)日: 2010-04-14
发明(设计)人: 李晓燕;陈刚;寿黎但;胡天磊;陈珂 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 林怀禹
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向Web2.0标签图片共享空间的检索结果聚类方法。挖掘标签间的词汇关系及关联关系,查询标签根据标签间词汇关系得到扩展的查询标签集;用扩展的查询标签集得到与查询相关的候选图像集;根据查询标签与候选图像集内标签的相关度度量,选出前K个最相关的标签;根据这K个标签两两之间的关联度,采用一种自顶向下基于图划分的聚类算法,自动将K个标签分成最优的聚类结果;候选图像集也相应地根据聚类标签被聚类。针对标签表达不一致问题实现有效的查询扩充,基于最相关标签集聚类的图像聚类方法解决了标签语义多样性的问题。相比于传统方法,本发明提供用户在Web2.0标签图片共享空间内快速有效的进行图片检索和浏览。
搜索关键词: 面向 web2 标签 图片 共享 空间 检索 方法
【主权项】:
1.一种面向Web2.0标签图片共享空间的图片结果聚类方法,其特征在于该方法的步骤如下:1)对图片数据库建立倒排索引,对图片数据库内的标签集合进行预处理分析,包括:第一步,构建标签的词汇关系结构用于查询扩展,首先借助已有词汇关联知识和词形变化知识构建包含同义词、词形变化和语义相近词汇关系的标签词典,根据标签词典构建词汇关系的最小结构标签原子它是一个标签的集合,满足下列条件:a)如果一个标签原子包含一个标签t,它必须也包含标签辞典中所有与标签t词汇相关的标签;b)对中任意两个标签t1和t2,它们必须词汇相关;一个标签可能出现在多个标签原子中,因为它在标签辞典中可能具有多种词义。对所有标签原子构建标签与标签原子之间的建立倒排索引表<ti的id,的id,...>,其中包含标签ti的标签原子,称此倒排表为标签原子倒排表;第二步,计算标签间的关联矩阵以用于聚类计算,标签间的关联度值采用Jaccard系数计算,对于标签ti和tj,I(ti)表示含有标签ti的图片集,I(tj)是含有标签tj的图片集,标签ti与tj间的关联度值aff(ti,tj)为|I(ti)∩I(tj)|/|I(ti)∪I(tj)|;2)对图片基于标签检索,并进行结果聚类的操作过程:第一步,对于查询标签通过构建的标签间的词汇关系结构进行查询扩展,用扩展后的标签查询获得跟查询可能相关的所有候选图片集Can_I,步骤如下:a)对于含有n个查询标签的查询q(t1,t2,...,tn),通过标签原子倒排索引表TAIL得到所有被查询q支持的查询q’(t’1,t’2,...,t’n),其中t’i和ti同属于一个标签原子;b)对于查询q或每个被查询q支持的查询q’,通过图片倒排索引获得包含一个查询中所有标签词的图片,查询q与其支持的所有查询q’获得的结果图片集合并作为候选图片集Can_I;第二步,根据标签t与查询q之间的一种相关度计算度量rel(t,q),从候选图片集包含的标签集Can_T中选出前K个与查询最相关的标签,相关度计算如下:a)计算标签和扩展后查询之间共同出现的频率,等同于计算该标签在候选图片集内的使用频率f(t);b)将标签在候选集的使用频率f(t)和该标签在整个图片数据库被使用的倒文档频率idf(t)的乘积作为该标签与查询间的相关度值rel(t,q);第三步,取出前K个最相关的标签的关联子矩阵,如果将K个标签看作K个顶点,两标签ti与tj间的关联度值看作两标签相连边的权重w(i,j),对K个标签的聚类问题看作是对含K个顶点的带权重无向图的划分问题,采用一种自定向下的图划分算法来聚类K个标签,首先介绍划分过程中的一个重要概念:假设图G被划分为k个顶点集合,给这个划分P定义一个度量值:其中A(V′,V″)是两个顶点集合V′,V″之间所有边的权重之和;Q值越大表示图划分的结果越好,所以采用自顶向下的启发式划分算法,能快速的找到聚类数不超过阀值θ的最优的k划分结果,步骤如下:a)采用依次二分划分的方法,最初k值2,初始划分P就是整个图G作为一个聚类,然后重复以下过程:(1)对于任意一个属于划分P的集合Vc,采用经典的k平均聚类方法将集合Vc二分,分裂得到两个更小的集合Vc1和Vc2;(2)将集合Vc1和Vc2取代划分P中的集合Vc得到新的划分P’;(3)如果Q(P’)>Q(P),则接受此次划分,更新划分P,否则保持划分P不变;b)如果k>θ或者划分P不能在继续被划分则算法停止;c)将划分P内的集合根据集合的聚合度排序,聚合度按照计算公式Cohesion(Vc)=(A(Vc,Vc)A(V,V)-(A(Vc,V)A(V,V))2)×log|V||Vc|]]>得到;第四步,根据以上K个标签被划分的k个聚类结果,候选图片集Can_I的聚类过程可以描述如下:a)对于K个标签一个聚类Cluster_i,候选图片集中的任意图片如果含有m个或者m个以上属于聚类Cluster_i的标签,则该图片归为聚类Cluster_i;b)最后候选图片集合中不被归为任何一个聚类Cluster_i的图片被统一归为聚类Cluster_other;c)最终候选图片结果被划分为k+1个聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910152883.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top