[发明专利]提供基于语言的交互式多媒体系统的方法、装置和计算机程序产品无效

申请号：	200780042946.2	申请日：	2007-11-09
公开（公告）号：	CN101542590A	公开（公告）日：	2009-09-23
发明（设计）人：	S·西瓦达斯	申请（专利权）人：	诺基亚公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L15/28
代理公司：	北京市中咨律师事务所	代理人：	杨晓光;张静美
地址：	芬兰***	国省代码：	芬兰;FI
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	提供基于语言交互式多媒体系统方法装置计算机程序产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明的实施例总体上涉及语音处理技术，并且更特别地，涉及一种用于为基于语言的交互式多媒体系统提供体系结构的方法、装置和计算机程序产品。

背景技术

现代通信纪元已经带来了有线和无线网络的极大扩展。计算机网络、电视网络和电话网络正在经历由于用户需求而推动的前所未有的技术扩展。无线和移动组网技术已经解决了相关的消费者需求，同时提供了更为灵活和直接的信息传送。

当前和未来的组网技术继续促进信息传送的容易度和对用户的便利性。其中存在对增加信息传送的容易度的需求的一个方面涉及向移动终端的用户传递服务。服务可以按照用户所期望的特定媒体或通信应用的形式，诸如音乐播放器、游戏机、电子书籍、短消息、电子邮件等。服务也可以按照交互式应用的形式，其中用户可以响应于网络设备，以便实现任务、玩游戏或达到目标。服务可以从网络服务器或其它网络设备或者甚至从移动终端(例如像移动电话、移动电视、移动游戏系统等)来提供。

在很多应用中，用户必须从网络或移动终端接收诸如口头反馈或指令这样的音频信息，或者用户必须向网络或移动终端提供口头指令或反馈。这样的应用可以提供给并不依赖于实质手动用户活动的用户接口。换句话说，用户可以在不需要手或部分需要手的环境中与应用进行交互。这样的应用的例子可以是支付账单、定制节目、请求和接收驾驶指令等。其它应用可以将口头语音转换成文本或者基于所识别的语音来实现某种其它的功能，诸如口述SMS或电子邮件等。为了支持这些和其它应用，语音识别应用、从文本产生语音的应用以及其它语音处理设备正在变得越来越常见。

可以被称为自动语音识别(ASR)的语音识别可以通过许多不同类型的应用来进行。当前ASR系统在其设计中高度偏向于改进英语语音的识别。这些系统在解码阶段整合关于语言的高级信息，诸如发音和词素(lexicon)，以便限制搜索空间。然而，大多数欧洲和亚洲语言在其形态学类型方面不同于英语。因此，如果需要将结果通用于其它更多的混合和/或高度屈折变化(inflected)的语言，那么英语可能不是用以研究的理想语言。例如，在欧盟中的20种官方语言彼此都比英语展现了更大程度的混合/屈折变化。现有的整体式ASR体系结构并不适于将该技术扩展到其它语言。即使已经开发了一些多语言ASR系统，每种语言也通常需要其自己的发音建模。因此，由于可用存储器大小和处理功率的限制，常常造成限制在便携式终端中多语言ASR系统的实现。

同时，从文本产生语音的设备(例如，文本到语音(TTS)设备)通常分析文本，并且进行语声(phonetic)和韵律(prosodic)分析，以便生成音素(phonemes)用于输出作为与原始文本的内容有关的合成语音。其它设备可以采用输入语音并且将该输入转换成不同的话音，这被称为话音转换。概括地，类似上述设备的设备可以被描述为口头语言接口。

尽管诸如上述的口头语言接口正在使用中，然而，当前并不存在用于在单个体系结构中提供这样的设备的整合的令人满意的机制。就此而言，用于组合ASR和TTS的建议已经被限制于仅向ASR系统所识别的字词提供TTS服务。因此，这样的建议限制了其广泛用途。此外，语言特殊性是很多这样的设备的共同缺点。

因此，可能需要开发克服上述问题的稳健的口头语言接口。

发明内容

因此，为基于口头语言的交互式媒体系统的体系结构提供了一种方法、装置和计算机程序产品。根据本发明的示例性实施例，可以根据输入的类型来检查和处理来自语音处理设备的输入音素的序列，以便使用与输入语音的类型相关联的稳健音素图或点阵(lattice)来进一步处理所述输入音素。因而，举例来说，ASR和TTS输入都可以使用所选择的对应的音素图或点阵来进行处理，以便提供改进的输出用于在产生合成语音、低比特率编码语音、话音转换、话音到文本转换、基于口头输入的信息检索等中使用。另外，本发明的实施例普遍可应用于所有的口头语言。因此，由于更高质量、更逼真或更准确的输入，可以改进上述任何使用。另外，不一定必须具有语言专用模块，从而改进语音处理设备的能力和效率。

在一个示例性实施例中，提供了一种方法，其提供基于语言的多媒体系统。所述方法包括：基于与音素的输入序列相关联的语音处理的类型来选择音素图，将所述音素的输入序列与所选择的音素图相比较，以及基于该比较来处理所述音素的输入序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于诺基亚公司，未经诺基亚公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200780042946.2/2.html，转载请声明来源钻瓜专利网。

上一篇：用于编码和解码基于对象的音频信号的方法和装置
下一篇：图像的深度图的生成

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]提供基于语言的交互式多媒体系统的方法、装置和计算机程序产品无效

专利文献下载