[发明专利]使用内容和扬声器信息进行音频信息检索的方法和装置无效
申请号: | 00104774.4 | 申请日: | 2000-03-28 |
公开(公告)号: | CN1270361A | 公开(公告)日: | 2000-10-18 |
发明(设计)人: | 霍梅沃恩·萨德莫哈姆德·贝基;阿兰·查尔斯·路易斯·特里特施勒;玛荷什·维斯万纳坦 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 于静 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 内容 扬声器 信息 进行 音频 检索 方法 装置 | ||
本发明涉及信息检索系统,更确切地,涉及从一个多媒体数据库文件中检索满足用户指定要求的多媒体信息,如音频和视频信息的方法和装置。
信息检索系统主要集中在从大的文本集合中检索文本文档。文本检索的基本原理已经充分地提出并整理发布。例如,可参见G.Salton,Automatic Text Processing,Addison-Wesley,1989。索引是一种将文档描述同查询描述进行匹配的机制。索引建立阶段(indexingphase)用一组字或词句对文档进行描述,而检索阶段(retrieval phase)用一组字或词句对查询进行描述。当文档描述同查询描述匹配时一个文档(或其中的一部分)得到检索。
多媒体对象,例如音频和视频文件所需的数据检索模型同文本文档所需的模型有很大的不同。对这些多媒体信息建立索引的标准特征集合有一点共性。对音频数据库建立索引的一种方法是使用某种音频提示,例如鼓掌,音乐或演讲。相似地,对视频信息建立索引的一种方法是使用关键帧,或相片的变化。对于有影响的演讲中的音频和视频信息,例如从广播中摘出的音频和视频信息,对应的文本可以使用语音识别系统得到,而转换文本可以用作建立相关音频(及视频)的索引。
当前的音频信息检索系统包含两个部分,即一个语音识别系统,用于将音频信息转换为用于建立索引的文本,和一个基于文本的信息检索系统。语音识别系统一般由三个部分组成,即词汇表,语言模型和一组针对词汇表中每个词的发音。词汇表是由语音识别器用来将语音翻译为文本的一组词。作为解码处理的一部分,该识别器将来自语音输入的声音同词汇表中的词进行匹配。因此,词汇表定义了可以被转换的词。如果一个词不在词汇表中,则该词将得不到识别,不可识别的词必须首先被加入到词汇表中。
语言模型是同特定领域相关的词汇表中一系列词的数据库。其中还包括这些词以特定次序出现时的一组概率。当使用语音模型时,语音识别器的输出将偏向高概率词序。这样,正确的解码处理是判断用户所说的一系列词是否在语言模型中具有高概率。这样,当用户说了一个不常见的词序时,解码性能将下降。词的识别完全基于它的发音,也就是说,词的语音表示。为了得到最好的准确率,必须使用同特定领域相关的语言模型。建立这样一个语言模型需要明确的文本转换及语音。
基于文本的信息检索系统一般分两步进行工作。第一步是离线(off-line)建索引阶段,这时会收集同文本文档相关的统计信息来建立索引。第二步是在线(on-line)搜索并检索阶段,使用该索引来进行查询-文档匹配,随后将相关的文档(及附加信息)返回给用户。在建立索引阶段,会对语音识别系统的文本输出进行处理以得到在检索阶段用于快速搜索的文档描述。
在建立索引过程中,一般按序执行下列操作:(i)标记化(tokenization),(ii)标记语音段落,(iii)形态(morphological)分析,及(iv)使用标准的结束词(stop-word)列表删除结束词。标记化探测语句边界。形态分析是一种语音信号处理的形式,它将名词分解为其词根,并附加一个指示复数形式的标记。同样,动词被分解为指示人,时态和语气的单元,并附加该动词的词根。关于索引建立过程的一般性讨论可以参见于在此作为参照的S.Dharanipragada et al.,"Audio-Indexing forBroadcast News,"in Proc.SDR97,1997。
当用户使用这样一个基于内容的音频信息检索系统来检索其中包含一或多个在用户定义的查询中定义的关键词的音频文件时,当前的音频信息检索系统不允许用户根据演讲人标识有选择性地检索相关的音频文件。这样,需要一种方法和装置,可以根据演讲人标识和音频内容来检索音频信息。
一般而言,这里所揭示的是一种根据音频内容和演讲人标识用于检索音频信息的方法和装置。所揭示的音频检索系统将基于内容和基于演讲人的音频信息检索的结果结合在一起来提供对音频信息(并间接对视频)的引用。
根据本发明的一个方面,查询搜索系统检索同包含一个文本串(一或多个关键词)的文本查询及给定演讲人的标识相对应的信息。用户定义的查询约束(constraints)同经索引的音频或视频数据库(或两者)进行比较并对包含与给定演讲人所说的指定词相关的音频/视频片段进行检索,展现给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00104774.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双向移动通信设备的应用程序启动器
- 下一篇:图像处理设备和方法,以及存储媒体
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置