[发明专利]具有语音控制和哼唱检索功能的多媒体播放方法及装置有效

专利信息
申请号: 201310298771.9 申请日: 2013-07-16
公开(公告)号: CN103366784A 公开(公告)日: 2013-10-23
发明(设计)人: 赵欢 申请(专利权)人: 湖南大学
主分类号: G11B27/10 分类号: G11B27/10;G10L15/30
代理公司: 湖南兆弘专利事务所 43008 代理人: 赵洪;谭武艺
地址: 410082 湖南省长沙*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 具有 语音 控制 哼唱 检索 功能 多媒体 播放 方法 装置
【权利要求书】:

1.一种具有语音控制和哼唱检索功能的多媒体播放方法,其特征在于实施步骤如下:

1)用户选择工作模式,采集语音数据并通过专用语音数据处理芯片进行预处理,当用户选择的工作模式为语音控制模式则跳转执行步骤2),如果用户选择的工作模式为哼唱检索模式则跳转执行步骤3);

2)将预处理后的语音数据与语法规则上传至互联网上的语音识别服务端进行语音识别,根据语音识别服务端返回的识别结果对本地的多媒体资源进行播放控制或者资源管理;

3)将预处理后的语音数据通过专用语音数据处理芯片提取基音序列并转换为音符序列,将所述音符序列发送给互联网上的匹配搜索服务端,通过所述匹配搜索服务端在音符特征数据库中进行匹配搜索找到与音符序列相匹配的多媒体资源身份信息,并根据所述多媒体资源身份信息从互联网下载对应的多媒体资源并存储到本地。

2.根据权利要求1所述的具有语音控制和哼唱检索功能的多媒体播放方法,其特征在于,所述步骤1)中进行预处理的详细步骤如下:

1.1)对采集得到的语音数据进行分帧;

1.2)对每一帧语音信号进行加汉明窗处理;

1.3)根据式(1)计算每一帧语音信号的短时能量;

En=Σm=0255xn2(m)---(1)]]>

式(1)中,En为第n帧的语音信号的短时能量,xn(m)为第n帧中第m个采样点的语音信号;

1.4)根据式(2)计算每一帧语音信号的过零率;

Zn=12Σm=0255|sgn[xn(m)]-sgn[xn(m-1)]|---(2)]]>

式(2)中,Zn为第n帧的语音信号的过零率,sgn[]为符号函数,sgn[]满足式(3)所示的关系,xn(m)为第n帧中第m个采样点的语音信号,xn(m-1)为第n帧中第m-1个采样点的语音信号,|·|为取绝对值运算符;

sgn[x]=1,(x0)-1,(x>0)---(3)]]>

式(3)中,x为语音采样点值的大小;

1.5)判断当前帧语音信号往前连续三帧语音信号的短时能量和过零率是否满足式(4)和式(5),如果满足式(4),则判定当前帧语音信号为开始帧;如果满足式(5),则判定当前帧语音信号为结束帧;

EnEmax]]>ZnZmax]]>        (4)

EnEmin]]>ZnZmin]]>      (5)

式(4)中,为预设的短时能量判决门限上限值,为预设的短时能量判决门限下限值;式(5)中,为预设的过零率判决门限上限值,为预设的过零率判决门限下限值;

1.6)根据开始帧和结束帧提取有效语音信号,对有效语音信号进行语音增强。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310298771.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top