[发明专利]一种基于语音识别的视频播放控制方法和系统有效
申请号: | 201210025924.8 | 申请日: | 2012-02-07 |
公开(公告)号: | CN102568478A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 吴昊宇;邓龙;姚键;邱丹;潘柏宇;卢述奇;刘睿姝 | 申请(专利权)人: | 合一网络技术(北京)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;H04N21/432 |
代理公司: | 北京德和衡律师事务所 11405 | 代理人: | 姚克枫 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 识别 视频 播放 控制 方法 系统 | ||
技术领域
本发明涉及一种视频控制方法,尤其涉及一种基于语音识别的视频播放控制方法,属于语音识别领域。
背景技术
目前,计算机语音识别的任务是让计算机能够听懂人类说话的语句或者命令,并做出相应的动作。
其中,从上世纪70年代开始,计算机语音识别技术在研究上取得了突破性的进展。现在计算机语音识别技术在各个领域都有广泛的应用,比如语音识别拨号,语音搜索,语音控制等。但是现有的计算机语音识别系统都存在一些问题。由于计算机语音识别需要进行大量的计算,所以现有的计算机语音识别计算基本上都是应用于单机的计算,或者需要下载并且安装特定的软件才能进行语音识别的任务,没有和互联网技术很好的结合。操作系统自带的语音识别系统只能完成特定的简单任务,与别的程序,或者与互联网应用没有连接,已经不能适应当今互联网的快速发展的需求。
由于人类的语言多种多样,而且同一个词的不同人的发音也不同,计算机语音识别从对人的语音的依赖程度上,按照声学模型建立的方式进行划分,可以分为特定人识别和非特定人语音识别系统。
发明内容
本发明针对现有技术的缺点,提供了一种基于语音识别的视频播放控制方法,该方法能够具有较灵活的视频控制效果。此外,本发明还公开了一种基于语音识别的视频播放控制系统。
根据本发明的第一目的,本发明提供了一种基于语音识别的视频播放控制方法,包括:
对用户的语音进行训练提取语音特征并保存在语音特征库中;
接收用户的语音控制命令,与所述保存的用户语音特征进行对比;
其中,当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
进一步地,优选的方法是,所述对用户语音进行训练提取语音特征并保存在语音特征库中,具体包括:
计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;
获取用户输入的若干次控制命令的训练语音;
经过预处理和语音特征后,得到特定用户的语音特征矢量参数并存储在网络服务器中的语音特征库中。
进一步地,优选的方法是,所述关键特征参数采用MFCC参数。
进一步地,优选的方法是,所述接收用户的语音控制命令,与所述保存的用户语音特征进行对比,具体包括:
将用户后续输入的语音控制命令与服务器中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
进一步地,优选的方法是,所述视频控制方法基于FLASH播旋器,其中,还包括:
在10秒钟完成对应的用户语音控制命令的识别步骤,在返回成功以后进行相应的视频控制动作。
本发明采取了上述技术方案以后,克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点;并且,由于本申请的语音特征是基于特定人而保存在语音特征库中,能够实现基于特征人的语音识别的效果,并且,该种方法进行语音识别和控制,其准确率较高。
根据本发明的又一目的,本发明提供了一种基于语音识别的视频播放控制系统,包括:
语音特征训练单元,用于对用户的语音进行训练提取语音特征并保存在语音特征库中;
语音特征识别单元,用于接收用户的语音控制命令,与所述保存的用户语音特征进行对比;
视频控制单元,用于当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
进一步地,优选的是,所述语音特征训练单元,具体包括:
特征参数提取子单元,用于计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;
特征参数训练子单元,用于获取用户输入的若干次控制命令的训练语音;经过预处理和语音特征后,得到特定用户的语音特征矢量参数;
发送子单元,用于将上述语音特征矢量参数存储在网络服务器中的语音特征库中。
进一步地,优选的是,所述关键特征参数采用MFCC参数。
进一步地,优选的是,所述语音特征识别单元,具体包括:
对比子单元,用于将用户后续输入的语音控制命令与服务器中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
进一步地,优选的是,所述视频控制单元,还包括:
FLASH播放器子单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210025924.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:助动器的控制系统
- 下一篇:基于相关向量机的高精度风电场功率区间预测方法