[发明专利]一种语音识别方法及装置在审
申请号: | 201310451614.7 | 申请日: | 2013-09-27 |
公开(公告)号: | CN104517609A | 公开(公告)日: | 2015-04-15 |
发明(设计)人: | 陈茂国;吕梁;刘帅东 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法及装置。
背景技术
自动语音识别技术(Automatic Speech Recognition,ASR)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。其广泛应用于语音通讯系统、声控电话交换、数据查询、订票系统、电信银行客服、计算机控制、工业控制等领域。
媒体资源服务器向终端提供各种语音服务时一般采用媒体资源控制协议(Media Resource Control Protocol,MRCP),该通讯协议由IETF在RFC4463中定义,目前已定义的功能有语音识别(Speech Recognize)、语音合成(Speech synthesis)、录音(Record)、说话人鉴别和确认(Speaker Verification and Identification)。MRCP并不定义会话连接,不关心服务器与终端是如何连接的,MRCP消息使用实时流协议(Real-Time Streaming Protocol,RTSP)、初始会话协议(Session Initiation Protocol,SIP)等作为控制协议等,目前MRCPv2版本,使用SIP控制协议。现有的MRCPv2的系统架构主要包括MRCP终端和MRCP服务器,其中:
MRCP终端(MRCP Client)用于控制MRCP Server上的一种或者多种媒体资源。
MRCP服务器(MRCP Server)用于提供一种或者多种媒体资源,比如文语转换、语音识别、语音身份辨认、录音。
MRCP终端和MRCP服务器在进行数据交互时,可以通过以下协议实现:
MRCP协议第二个大版本(MRCPv2)是基于TCP连接,用于控制MRCP Server的媒体资源,以完成MRCP Client的媒体资源使用任务。
初始会话协议(SIP),用于实现MRCP Server与MRCP Client间的会话建立和会话信令管理,交换终端与服务器的会话描述协议(Session Description Protocol,SDP),为语音数据流的建立打下基础。
实时传输协议(RTP),用于传输终端与服务器的语音数据流。
现有技术MRCPv2协议中规定了如何通过SIP、RTP、MRCP协议配合使得MRCP Client和MRCP Server完成语音识别功能。
现有技术中实现一次性语音识别典型的流程时序,具体包括一下步骤:
MRCP Client发送INVITE消息给MRCP Server请求建立会话,携带MRCP Client侧的SDP;
MRCP Server回复200表示请求已经成功接受处理,携带MRCP Server侧的SDP;
MRCP Client随后发送ACK消息证实200消息已经收到,至此一个SIP会话成功建立;
MRCP Client发送RECOGNIZE消息给MRCP Server请求语音识别,按照MRCP协议规定的格式携带相关的语音识别控制参数,并且指定语法文件路径;
MRCP Server接收RECOGNIZE请求,编译语法文件,回复200消息给MRCP Client;
MRCP Client此时开始根据之前协商好的SDP,开始源源不断的发送RTP语音流给MRCP Server;
MRCP Server接收RTP语音流,当检测到用户开始说话时,发送START-OF-INPUT事件;
当MRCP Server根据语法文件定义得到识别结果时,通过RECOGNITION-COMPLETE事件返回识别结果;
MRCP Client发送BYE消息给MRCP Server结束会话;
MRCP Server发送200消息给MRCP Client确认结束;
MRCP Client通过上述流程获得MRCP Server提供的一次完整语音识别能力。
通过上述现有技术的方案进行语音识别的问题是:在RTP流不间断的场景下,如果通过一次性识别的方式进行语音流的识别和反馈,必然会导致在识别控制的间隔,有些RTP流被遗漏处理,从而就会影响到连续识别的准确性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;,未经华为技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310451614.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磁记录头及具备其的盘装置
- 下一篇:使用清音无喉语音控制系统