[发明专利]基于语义关联网络的跨模信息检索方法无效
申请号: | 201010252935.0 | 申请日: | 2010-08-13 |
公开(公告)号: | CN101894170A | 公开(公告)日: | 2010-11-24 |
发明(设计)人: | 曾承 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430072*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 关联 网络 信息 检索 方法 | ||
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于语义关联网络的跨模信息检索方法。
背景技术
据广电网09年统计,全国主流网站每日更新的文字、图片及视频量大概是310GB/天。《福布斯》报道,人类5000年的文字记载总量是5 EB,而仅09年,全球产生的数字内容就超过了450 EB,其中多媒体数据占据了相当大的比例。“信息爆炸”愈演愈烈,Facebook、Twitter、微博客等应用促使新生信息指数扩张,而当前的互联网仍然无法应对信息过度膨胀与信息精确定位之间的矛盾,尤其是对于多媒体信息,即使是谷歌、百度,以及微软必应等搜索引擎也难以获得满意的检索效果。Outsell公司最新调查显示,全世界平均每人每周要花费9.5小时用于信息检索,其原因是基于关键字的主流检索方式难以有效表达用户检索需求,而返回结果的挑选也相当耗时。
近几年,基于多媒体样例相似性的搜素技术得到了长足发展,甚至出现了商业化产品,如提供商品图片相似搜索的Like,支持提交图片、视频帧,甚至手画图进行检索的GazoPa,以及微软即将发布的基于图片的地理位置搜索Photo2Search等。这些搜索引擎主要是利用颜色、纹理、形状等底层物理特征进行匹配,其视觉感受将远高于传统关键字搜索引擎,但在语义匹配度方面并未改善。因此,语义搜索技术也同时受到广泛关注,如微软的IGroup提供结果语义分类,Hakia能同时显示某一主题的图片、视频、文本介绍、文本新闻等,以及支持自然语言检索,并整合了语义网、语义分类等技术的 Zoom。然而,目前的语义搜索引擎仍然基于关键字,其语义处理过程大多是利用WordNet或本体等,进行概念推理或比较。
人们在日常交往过程中,往往是以多模形式进行信息互递。同时采用视觉、听觉,以及文本等形式表达自己的语义,必然能使对方更快、更准确的理解自己。在人机交互过程中,这种规律也同样存在。跨模检索技术就是力求最大限度地获取不同模态媒体之间的关联性、协同性和互补性,使得多种媒体信息的识别、检索和利用更加充分且有效,并使媒体信息的发现重构、共生新用成为可能,从而达到各种模态媒体信息的融合,共存于一体,使得用户能够更为及时、准确、低成本、多感官的获取所需信息。
发明内容
针对上述存在的技术问题,本发明的目的是提供一种基于语义关联网络的跨模信息检索方法,实现高效跨模检索。
为达到上述目的,本发明采用如下的技术方案:
通过网页视觉空间分析、多媒体搜索引擎标注关系分析、DeepWeb接口模式分析、复合媒体中不同模态数据的关联分析、用户直接或潜在反馈信息的利用,以及关联推理等六个渠道获取跨模信息单元的语义关联知识;
基于以上不同渠道获取的关联知识,进行加权整合,构建统一的跨模语义关联网络;
针对跨模语义关联网络,实施分层模糊聚类;
对每个聚类,寻找其中所有信息单元的典型特征向量,作为该聚类的代表;
对系统中所有信息单元对应的特征向量,建立散列索引;
在每个信息单元,对应特征向量、聚类的典型特征向量、聚类序号之间建立映射关系。
所述网页视觉空间分析包括以下步骤:
将页面划分成不同粒度、具有视觉层次包含关系的若干块;
将以上分析出的块转换成视觉关系树;
利用视觉关系树计算各种模态信息单元之间的语义关联。
所述多媒体搜索引擎标注关系分析包括以下步骤:
针对某个多媒体搜索引擎,采用以下公式计算搜索关键字(或关键字集合)和第v条结果的标注概念集合的语义相似性:
其中,
上式中Ku、Tv分别表示搜索概念集合和第v条结果的标注概念集合; 是一个修正常量,用于防止两个集合的交集 为空;KM为Kuhn-Munkres算法, 表示从搜索关键字和结果标签中分别选择一个概念,并通过WordNet或者其他本体计算它们的语义相似性;
构建多媒体元搜索引擎,定义一个语义空间来衡量所有结果之间的关联大小,其中横坐标为每条结果标注与检索条件的关联度大小,即 ,纵坐标为搜索引擎排序值。
所述DeepWeb接口模式分析包括以下步骤:
基于同类网页叠加,定位网页中DeepWeb数据区域;
识别后台数据库的数据模式;
利用该表的横轴模式信息,实现不同属性、不同模态数据之间的相互解释;
利用该表的纵轴模式信息,计算不同元组之间的语义关联大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010252935.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用数据通信的装置控制
- 下一篇:电子书下载方法及购买系统