[发明专利]用于同声传译业务的语音弱化处理方法无效

申请号：	201310055867.2	申请日：	2013-02-21
公开（公告）号：	CN103093754A	公开（公告）日：	2013-05-08
发明（设计）人：	于洋;林国夫;张伟	申请（专利权）人：	中国对外翻译出版有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L21/003
代理公司：	上海申新律师事务所 31272	代理人：	张惠明
地址：	100044 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于同声传译业务语音弱化处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种用于同声传译业务的语音弱化处理方法。

背景技术

随着通信网络及业务的蓬勃发展，多方通话业务已经成为公共交换电信网/综合业务数字网（PSTN/ISDN）、分组语音网和移动网必备的补充业务，同时在网络电话会议和视频会议业务应用也越来越广泛，基本的语音业务涉及两个通话方，通话双方可以相互听到对方的声音，而在多方通话业务和会议业务中，同时通话可能不止两方，其中任意一方的语音信号够可以被传送至所有其他通话方，而每一通话方都同时可听到多个其他通话方的声音。而当上述多方通话业务（包括网络电话会议和视频会议业务）中使用多种语言时，需要对发言者的讲话内容进行口头翻译（简称口译）。口译有多种分类，按照传送方式的不同，包括同声传译和交替传译，目前的国际会议基本上以同声传译为主。在基于多语种同声传译服务的多方通话业务和会议业务中，通话双方或多方都能听到翻译的声音，而为了保证和提升基于同声传译业务翻译准确性和安全性，在将翻译的声音传送给对方任一听众的同时，还需将演讲者声音传送给对方任一听众，为了避免翻译声音和演讲者源语言声音的混淆，需要对演讲者声音的进行弱化处理。为此，在基于多语种同声传译翻译服务的多方通话业务和会议业务中需要增加能实时调整任一音源音量的混音处理，也即将不同的音频流在某个节点处通过优化处理混合成一个音频流，以便任意一个通话成员都可同时听到其他通话方的清晰有层次感的整体声音。

传统的混音一般采用两种方法，以下分别加以描述。在第一种方法中，通信系统首先比较所有正在讲话的通话方的语音信号强弱（以语音信号的能量或幅度量度），找出声音最强的通话方（以下简称为最大方）和声音次强的通话方（以下简称次大方），然后将最大方的语音信号传送给所有其他通话方，并将次大方的语音信号传送给最大方，以下将这种方法称之为最大方比较法。这种方法的优点是实现方式较简单、缺点是当两方或多方同时或很快地交替说话时（例如两个人争吵的情况），降使得各方无法同时听到说话者的声音，并导致最大方声音的频繁切换，混音效果很差，甚至根本无法听清声音。

另一种方法称之为多方混音法，其基本原理是将通话中声音较强的几方或所有方的语音信号都混合起来（例如采用线性或非线性叠加方式处理）后传送给所有各方。该方法能很好地解决最大方比较法中的频繁切换问题，混音效果较好，但是一般仅适合通话各方面使用G.711编解码传输语音或基于波形的语音编解码情况，即，仅适合PSTN/ISDN网络中的多方通话业务，但不适合通话方中有使用低比特率语音编解码的情况（例如移动网络和分组语音网络中的多方通话业务）。这是因为，目前移动网络和分组语音网络等通信网络所采用的低比特率语音编解码方法都基于参数编码原理或分析-合成方式，即通过提取说话人语音信号中的特征参数来压缩语音，例如GSM网络中的全球移动通信系统（GSM）全速率/半速率/增强型全速率（GSM-FR/HR/EFR）语音编解码方法，通信移动电信系统（UMTS）网络中的自适应多码速率（AMR）语音编解码方法以及H.323网络中的G.723.1、G.729等语音编解码方法。就上述基于分析-合成的语音编解码而言，其仅能够提取单个说话人语音信号中的特征参数，对于包含多个说话者声音的混音信号，由于无法区分出每个说话人语音信号若经过低比特率语音编解码处理，语音质量非常差，特别是混音信号包含较多方语音的情况下更是如此。

随着移动通信和分组语音通信的普及，基于多语种同声传译服务的多方通话业务或会议业务中必然将包括移动用户和分组语音用户，因此一种适用于同时包含高、低比特率语音编解码用户、并能在讲不同语言的用户沟通过程中实现源语言声音弱化的混音处理技术在多方通话业务中具有重要的应用价值。

中国发明专利200610040060.1公开了一种混音处理方法，该发明采用对于采用基于分析-合成的语音编解码方式的通话方（例如GSM或UTMS网络移动用户、使用低比特率语音编解码的分组语音用户）只传送最优先通话方的语音信号而不传送混合处理后的语音信号；对于采用其他基于波形的语音编解码方式的通话（例如PSTN/ISDN用户），传送混合处理后的多方语音信号的方法。该方法虽然可以使得多方通话业务中使用各种语音编解码方式的用户都接收到语音质量信号得到一定的改进，但仍有其局限性：因采用常见的线性叠加混音算法，当混音语音数达到一定数目时存在混音后音量降低、求和溢出及引入随机噪音的缺点；另外，不包含语音弱化功能，用于同声传译业务中存在混音处理后的翻译声音与源语言声音易于混淆的缺点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国对外翻译出版有限公司，未经中国对外翻译出版有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310055867.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于同声传译业务的语音弱化处理方法无效

专利文献下载