[发明专利]使用内容和扬声器信息进行音频信息检索的方法和装置无效

专利信息
申请号: 00104774.4 申请日: 2000-03-28
公开(公告)号: CN1270361A 公开(公告)日: 2000-10-18
发明(设计)人: 霍梅沃恩·萨德莫哈姆德·贝基;阿兰·查尔斯·路易斯·特里特施勒;玛荷什·维斯万纳坦 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中国国际贸易促进委员会专利商标事务所 代理人: 于静
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 内容 扬声器 信息 进行 音频 检索 方法 装置
【说明书】:

发明涉及信息检索系统,更确切地,涉及从一个多媒体数据库文件中检索满足用户指定要求的多媒体信息,如音频和视频信息的方法和装置。

信息检索系统主要集中在从大的文本集合中检索文本文档。文本检索的基本原理已经充分地提出并整理发布。例如,可参见G.Salton,Automatic Text Processing,Addison-Wesley,1989。索引是一种将文档描述同查询描述进行匹配的机制。索引建立阶段(indexingphase)用一组字或词句对文档进行描述,而检索阶段(retrieval phase)用一组字或词句对查询进行描述。当文档描述同查询描述匹配时一个文档(或其中的一部分)得到检索。

多媒体对象,例如音频和视频文件所需的数据检索模型同文本文档所需的模型有很大的不同。对这些多媒体信息建立索引的标准特征集合有一点共性。对音频数据库建立索引的一种方法是使用某种音频提示,例如鼓掌,音乐或演讲。相似地,对视频信息建立索引的一种方法是使用关键帧,或相片的变化。对于有影响的演讲中的音频和视频信息,例如从广播中摘出的音频和视频信息,对应的文本可以使用语音识别系统得到,而转换文本可以用作建立相关音频(及视频)的索引。

当前的音频信息检索系统包含两个部分,即一个语音识别系统,用于将音频信息转换为用于建立索引的文本,和一个基于文本的信息检索系统。语音识别系统一般由三个部分组成,即词汇表,语言模型和一组针对词汇表中每个词的发音。词汇表是由语音识别器用来将语音翻译为文本的一组词。作为解码处理的一部分,该识别器将来自语音输入的声音同词汇表中的词进行匹配。因此,词汇表定义了可以被转换的词。如果一个词不在词汇表中,则该词将得不到识别,不可识别的词必须首先被加入到词汇表中。

语言模型是同特定领域相关的词汇表中一系列词的数据库。其中还包括这些词以特定次序出现时的一组概率。当使用语音模型时,语音识别器的输出将偏向高概率词序。这样,正确的解码处理是判断用户所说的一系列词是否在语言模型中具有高概率。这样,当用户说了一个不常见的词序时,解码性能将下降。词的识别完全基于它的发音,也就是说,词的语音表示。为了得到最好的准确率,必须使用同特定领域相关的语言模型。建立这样一个语言模型需要明确的文本转换及语音。

基于文本的信息检索系统一般分两步进行工作。第一步是离线(off-line)建索引阶段,这时会收集同文本文档相关的统计信息来建立索引。第二步是在线(on-line)搜索并检索阶段,使用该索引来进行查询-文档匹配,随后将相关的文档(及附加信息)返回给用户。在建立索引阶段,会对语音识别系统的文本输出进行处理以得到在检索阶段用于快速搜索的文档描述。

在建立索引过程中,一般按序执行下列操作:(i)标记化(tokenization),(ii)标记语音段落,(iii)形态(morphological)分析,及(iv)使用标准的结束词(stop-word)列表删除结束词。标记化探测语句边界。形态分析是一种语音信号处理的形式,它将名词分解为其词根,并附加一个指示复数形式的标记。同样,动词被分解为指示人,时态和语气的单元,并附加该动词的词根。关于索引建立过程的一般性讨论可以参见于在此作为参照的S.Dharanipragada et al.,"Audio-Indexing forBroadcast News,"in Proc.SDR97,1997。

当用户使用这样一个基于内容的音频信息检索系统来检索其中包含一或多个在用户定义的查询中定义的关键词的音频文件时,当前的音频信息检索系统不允许用户根据演讲人标识有选择性地检索相关的音频文件。这样,需要一种方法和装置,可以根据演讲人标识和音频内容来检索音频信息。

一般而言,这里所揭示的是一种根据音频内容和演讲人标识用于检索音频信息的方法和装置。所揭示的音频检索系统将基于内容和基于演讲人的音频信息检索的结果结合在一起来提供对音频信息(并间接对视频)的引用。

根据本发明的一个方面,查询搜索系统检索同包含一个文本串(一或多个关键词)的文本查询及给定演讲人的标识相对应的信息。用户定义的查询约束(constraints)同经索引的音频或视频数据库(或两者)进行比较并对包含与给定演讲人所说的指定词相关的音频/视频片段进行检索,展现给用户。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/00104774.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top