[发明专利]信息存储与检索无效
申请号: | 201110295183.0 | 申请日: | 2003-11-04 |
公开(公告)号: | CN102368255A | 公开(公告)日: | 2012-03-07 |
发明(设计)人: | D·W·特雷佩斯;J·R·托尔普 | 申请(专利权)人: | 索尼英国有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宋鹤 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 存储 检索 | ||
本申请是申请日为2003年11月4日、申请号为200380104487.8、名称为“信息存储与检索”的发明专利申请的分案申请。
技术领域
本发明涉及信息检索装置与方法。
背景技术
有多种已建立用于通过根据关键词搜索来定位信息(例如,文档、图像、电子邮件、专利、互联网内容、或媒体内容诸如音频/视频内容)的系统。例子包括互联网搜索“引擎”,诸如由“Google”TM或“Yahoo”TM提供的搜索引擎,其中通过关键词进行的搜索产生了由该搜索引擎以感觉相关顺序排列的结果列表。
然而,在包含大量内容的系统中(通常称为大量内容集合),很难制定有效的搜索查询以给出搜索“命中”的简短列表。例如,在准备本申请时,以关键词“大量文档集合”进行Google搜索,命中243000个。如果之后重复搜索,则这个命中数还有望增加,因为通过互联网存储的内容量一般随时间增加。查看这种命中列表可能相当耗时。
通常,大量内容集合没有被很好利用的一些原因是:
·用户不知道存在相关内容;
·用户知道存在相关内容,但不知道它在哪;
·用户知道存在内容,但不知道它是相关的;
·用户知道存在相关内容以及如何找到它,但找到该内容要花很长时间。
文章“大量文档集合的自组织”(“Self Organisation of a Massive Document Collection”,Kohonen et al,IEEE Transactions on Neural Networks,Vol 11,No.3,May 2000,P574-585)公开了一种使用所谓“自组织映射”(SOM)的技术。其利用了所谓无人监管的自学习神经网络算法,其中表示各文档特性的“特征向量”映射到SOM的节点上。
在Kohonen等人的文章中,第一步是预处理文档文本,并随后从各预处理的文档中导出特征向量。在一种形式中,这可以是显示单词的各大型词典出现频率的直方图。直方图内的各数据值(即,各个词典单词的各出现频率)变成n值向量的值,其中n是词典中候选单词的总数(在这篇文章描述的实例中是43222)。可对n向量值进行加权,或许强调特定单词的增强的相关性或改进的分化。
随后,n值向量被映射到基本小于n的较小维数向量上(即,具有数值为m(在该篇文章中为500)的向量)。这是通过将该向量与由随机数阵列形成的(n×m)“投影矩阵”相乘来实现的。这种技术已经显示出可以生成较小维数的向量,其中任意两个减小维数的向量都具有许多与两个各输入向量相同的向量点积。在文章“通过随机映射的维数缩减:用于聚类的快速相似性计算”(“Dimensionality Reduction by Random Mapping:Fast Similarity Computation for Clustering”,Kaski,Proc IJCNN,P413-418,1998)中描述了这个向量映射过程。
通过将各向量与“模型”(另一向量)相乘的过程,减小维数的向量随后被映射到SOM上的节点(也称为神经元)上。这些模型通过学习过程产生,该学习过程通过相互相似性将它们自动排序在SOM上,这通常表示为节点的二维栅格。这是一个不平凡的过程,对于只在700万文档以下的文档数据库,Kohonen等人在内存为800MB的6个处理器的计算机上花了6周的时间。最后,显示形成SOM的节点栅格,用户可放大映射区域并选择节点,这使用户界面可提供到包含链接到那个节点的文档的网页的链接。
发明内容
本发明的各方面和特征在所附权利要求书中定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼英国有限公司,未经索尼英国有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110295183.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置