[发明专利]信息存储与检索无效

专利信息
申请号: 201110295183.0 申请日: 2003-11-04
公开(公告)号: CN102368255A 公开(公告)日: 2012-03-07
发明(设计)人: D·W·特雷佩斯;J·R·托尔普 申请(专利权)人: 索尼英国有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京东方亿思知识产权代理有限责任公司 11258 代理人: 宋鹤
地址: 英国*** 国省代码: 英国;GB
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 存储 检索
【说明书】:

本申请是申请日为2003年11月4日、申请号为200380104487.8、名称为“信息存储与检索”的发明专利申请的分案申请。

技术领域

本发明涉及信息检索装置与方法。

背景技术

有多种已建立用于通过根据关键词搜索来定位信息(例如,文档、图像、电子邮件、专利、互联网内容、或媒体内容诸如音频/视频内容)的系统。例子包括互联网搜索“引擎”,诸如由“Google”TM或“Yahoo”TM提供的搜索引擎,其中通过关键词进行的搜索产生了由该搜索引擎以感觉相关顺序排列的结果列表。

然而,在包含大量内容的系统中(通常称为大量内容集合),很难制定有效的搜索查询以给出搜索“命中”的简短列表。例如,在准备本申请时,以关键词“大量文档集合”进行Google搜索,命中243000个。如果之后重复搜索,则这个命中数还有望增加,因为通过互联网存储的内容量一般随时间增加。查看这种命中列表可能相当耗时。

通常,大量内容集合没有被很好利用的一些原因是:

·用户不知道存在相关内容;

·用户知道存在相关内容,但不知道它在哪;

·用户知道存在内容,但不知道它是相关的;

·用户知道存在相关内容以及如何找到它,但找到该内容要花很长时间。

文章“大量文档集合的自组织”(“Self Organisation of a Massive Document Collection”,Kohonen et al,IEEE Transactions on Neural Networks,Vol 11,No.3,May 2000,P574-585)公开了一种使用所谓“自组织映射”(SOM)的技术。其利用了所谓无人监管的自学习神经网络算法,其中表示各文档特性的“特征向量”映射到SOM的节点上。

在Kohonen等人的文章中,第一步是预处理文档文本,并随后从各预处理的文档中导出特征向量。在一种形式中,这可以是显示单词的各大型词典出现频率的直方图。直方图内的各数据值(即,各个词典单词的各出现频率)变成n值向量的值,其中n是词典中候选单词的总数(在这篇文章描述的实例中是43222)。可对n向量值进行加权,或许强调特定单词的增强的相关性或改进的分化。

随后,n值向量被映射到基本小于n的较小维数向量上(即,具有数值为m(在该篇文章中为500)的向量)。这是通过将该向量与由随机数阵列形成的(n×m)“投影矩阵”相乘来实现的。这种技术已经显示出可以生成较小维数的向量,其中任意两个减小维数的向量都具有许多与两个各输入向量相同的向量点积。在文章“通过随机映射的维数缩减:用于聚类的快速相似性计算”(“Dimensionality Reduction by Random Mapping:Fast Similarity Computation for Clustering”,Kaski,Proc IJCNN,P413-418,1998)中描述了这个向量映射过程。

通过将各向量与“模型”(另一向量)相乘的过程,减小维数的向量随后被映射到SOM上的节点(也称为神经元)上。这些模型通过学习过程产生,该学习过程通过相互相似性将它们自动排序在SOM上,这通常表示为节点的二维栅格。这是一个不平凡的过程,对于只在700万文档以下的文档数据库,Kohonen等人在内存为800MB的6个处理器的计算机上花了6周的时间。最后,显示形成SOM的节点栅格,用户可放大映射区域并选择节点,这使用户界面可提供到包含链接到那个节点的文档的网页的链接。

发明内容

本发明的各方面和特征在所附权利要求书中定义。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼英国有限公司,未经索尼英国有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110295183.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top