[发明专利]基于听者和说者的讲话风格比较估计听者理解说者的能力有效

申请号：	201110184213.0	申请日：	2011-05-17
公开（公告）号：	CN102254556A	公开（公告）日：	2011-11-23
发明（设计）人：	保罗·若勒·麦克里斯	申请（专利权）人：	阿瓦雅公司
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/06;G06F17/30;H04M3/56
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	宋鹤
地址：	美国新***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于听者讲话风格比较估计理解能力
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

一个示例性方面涉及对通信的改进。更具体地，一个示例性方面涉及辅助在诸如会议电话之类的通信环境中的各方之间的可理解性(understandability)。

背景技术

即使两个人使用相同的语言讲话，并且精通该语言的词汇和语法，然而他们说话方式之间的差异，例如，口音、发音准确度、韵律、语音、语调、节奏、声调，协同发音、音节重读，音节持续时间等等的差异，可以影响他们理解对方讲话的容易度。虽然这些差异可发生在作为使用同一语言的母语讲话者的人们当中，但是，当由于一个谈话者习惯的是听者所习惯的语言以外的语言而使得该谈话者的讲话模式受到了影响时，这种问题可能尤其明显。

发明内容

发生该情况的一个很有意思的场景是在离岸联络中心(off-shore contact center)。

当具有不同说话方式的人们之间面对面地进行交谈时，讲话者可以观察听者并且接收到非口头的关于他们是否被理解的反馈。察觉到听者有困难时讲话者可以调整他或她的说话方式，并且然后从接下来的非口头反馈中感觉这(一种或多种)调整是否有帮助。重点在于，在面对面的交谈中，有一个持续的反馈和调整循环。

如同各种各样的其它领域中的系统一样，可以预期到持续的反馈和调整循环的缺少会引起“漂移(drift)”—在这种情况下，讲话者越来越远地偏离了听者最容易懂的讲话风格。被认为可能导致这种漂移的因素包括讲话者的情感状态，对迅速表达观点的期望，以及讲话者是否做出了刻意努力去以听者-友好的方式说话。这里讨论的实施例所解决的一个问题是存在于仅语音的电话交谈中的唯一反馈机制是来自听者的口头反馈—由于它打断了交谈的流畅并被一些人认为是粗鲁的，因此这个选择很少被使用。

可用技术涉及基于计算机的系统，其中该系统“聆听”正在学习说外语的人并且向他们提供关于该学生发音错误的反馈。类似的系统被丧失听力的人所使用，给予他们关于如何提高他们的讲话的可理解性的指导。

在这里讨论的实施例和帮助学生的自动化技术之间的根本区别是，用于学生的帮助软件将学生的讲话与描述了完美发音的模板做比较。通过比较，实施例分析电话中的一个或多个通话方的说话风格，并且基于他或她的说话风格与听者的说话风格的不同程度来提供反馈给讲话者。例如，对于一个从书本上学习法语的美国人来说去理解一个说着完美法语的人是很困难的，但是去理解一个以类似于听者说法语的速度(即，非常慢)，带有和所述听者相似的夸张美国人风格的口音说出来的法语是相对简单的。

另一有意思的场景是在空中交通控制领域。更具体地，世界上所有控制员都被要求说英语。这明显呈现出一种潜在的危险情况并且提供了另一种环境，在这种环境中，这里所讨论的技术可能是有用的。在这个场景中，中国人向德国人讲英语的想法并不那么牵强。

因此，一个示例性方面涉及一种自动通讯系统附件，该附件“聆听”一个或多个参与者的说话风格，标识表示他们的风格的差异的具体特性，特别是口音，但也包括发音准确性，语速，语调，节奏，声调，协同发音，音节重读，音节持续时间，语法，词汇(或者有限的词汇的识别)以及习语(idiom)中的一者或多者，并且例如利用对可能影响特定听者的可理解性的独立可测量讲话分量进行适当加权并且然后组合成指示所估计出的听者可理解所说内容的容易度的单个整体评分的数学模型，并且基于该评分向讲话者呈现实时反馈。此外，该系统可以为讲话者提供关于如何提高可理解性的建议。

根据另一个示例性实施例，一种分析可以被执行来判断信号的减弱是否也可能导致可懂性问题，例如分组丢失，延迟时间，噪声，等等。此外，交谈动态也可被分析，例如听者是否正说“你可以再说一遍么”或者，相反，表现出完全沉浸在交谈中，这两者都给出了听者理解讲话者的能力的暗示。

在语音识别技术中，隐式马可夫模型(HMM)被用来分析样本，并且在这之后执行统计分析。此外，该模型被用作与模板进行比较的一种匹配处理。通常地，隐式马可夫模型是输出符号或数量序列的统计模型。通过HMM建模的讲话信号可以被看作是分段平稳(stationary)信号或短期平稳信号。这就是说，可以假设在例如10毫秒范围的短时间内，语音可以被近似成平稳过程。因此对于许多随机过程，语音可被认为是马可夫模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿瓦雅公司，未经阿瓦雅公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110184213.0/2.html，转载请声明来源钻瓜专利网。

上一篇：电子部件及其制造方法
下一篇：使用来自移动数据源的数据估算道路交通状况

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于听者和说者的讲话风格比较估计听者理解说者的能力有效

专利文献下载