[发明专利]一种语音识别方法及装置有效
申请号: | 201610172175.X | 申请日: | 2016-03-24 |
公开(公告)号: | CN105895087B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 高伟杰;任晓楠;王峰 | 申请(专利权)人: | 海信集团有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/06;G10L15/02 |
代理公司: | 11274 北京中博世达专利商标代理有限公司 | 代理人: | 申健 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的实施例提供一种语音识别方法及装置,涉及计算机技术领域,用以解决现有的语音识别技术对语音进行语音分类时,所导致的语音分类区分度不高的问题。该方法包括:提取待识别语音的至少两个语音特征;基于多层受限玻尔兹曼机RBM对至少两个语音特征中的每个语音特征分别进行训练,得到每个语音特征对应的深度语音特征;将每个语音特征对应的深度语音特征进行特征融合,得到待识别语音的深度语音特征;将待识别语音的深度语音特征输入分类器进行分类,得到待识别语音的语音类别。本发明应用于语音识别。 | ||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
【主权项】:
1.一种语音识别方法,其特征在于,包括:/n提取待识别语音的至少两个语音特征;/n基于多层受限玻尔兹曼机RBM对所述至少两个语音特征中的每个语音特征分别进行训练,得到所述每个语音特征对应的深度语音特征;/n将所述每个语音特征对应的深度语音特征进行特征融合,得到所述待识别语音的深度语音特征;/n将所述待识别语音的深度语音特征输入分类器进行分类,得到所述待识别语音的语音类别;/n其中,所述分类器为经过训练的分类器,所述分类器中的语音类别与深度语音特征间存在的对应关系,所述对应关系是通过将经过深度学习训练的训练语音样本的深度语音特征作为分类器的输入特征得出的,所述训练语音样本通过多层RBM网络进行深度学习训练。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信集团有限公司,未经海信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610172175.X/,转载请声明来源钻瓜专利网。
- 上一篇:音频信号处理
- 下一篇:一种应用于语音识别的信号增益方法和装置
- 同类专利
- 语音呼救方法、智能音箱以及存储介质-201910694272.9
- 陈清 - 深圳市南和移动通信科技股份有限公司
- 2019-07-30 - 2020-02-14 - G10L15/08
- 本发明公开一种语音呼救方法,所述语音呼救方法包括:获取语音信息;所述语音信息为所述智能音箱所处环境的声音信息;判断所述语音信息中,是否存在预设的呼救关键词;若所述语音内容中存在所述呼救关键词,判断所述呼救关键词是否为预设的用户发出;若判断所述呼救关键词为预设的用户发出,则发送紧急呼救信息。本发明还提供一种智能音箱以及存储介质。本发明提供的技术方案,能够获取语音的呼救信息,并对呼救信息做出处理,发送紧急请求至紧急联系人,能够避免意外发生。
- 语料分类方法及装置-201611027175.7
- 张勇 - 北京云知声信息技术有限公司
- 2016-11-17 - 2020-02-07 - G10L15/08
- 本发明是关于一种语料分类方法及装置,其中,方法包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext)算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。通过该技术方案,可以在在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
- 一种语音识别方法及装置-201610172175.X
- 高伟杰;任晓楠;王峰 - 海信集团有限公司
- 2016-03-24 - 2020-02-07 - G10L15/08
- 本发明的实施例提供一种语音识别方法及装置,涉及计算机技术领域,用以解决现有的语音识别技术对语音进行语音分类时,所导致的语音分类区分度不高的问题。该方法包括:提取待识别语音的至少两个语音特征;基于多层受限玻尔兹曼机RBM对至少两个语音特征中的每个语音特征分别进行训练,得到每个语音特征对应的深度语音特征;将每个语音特征对应的深度语音特征进行特征融合,得到待识别语音的深度语音特征;将待识别语音的深度语音特征输入分类器进行分类,得到待识别语音的语音类别。本发明应用于语音识别。
- 一种基于维特比算法的花洒语音识别系统及方法-201911018314.3
- 吴淼;唐刚 - 上海海事大学
- 2019-10-24 - 2020-01-31 - G10L15/08
- 本发明公开了一种基于维特比算法的花洒语音识别系统及方法,该方法包括以下步骤:步骤1:采集用户发出的音频数据;步骤2:基于维特比算法将所采集的音频数据识别为文字;步骤3:将所识别的文字转化为包括开关花洒和控制水温的动作。本发明基于维特比算法,将语音识别应用于花洒中,实现自动控制温度和花洒的开启和关闭,提高用户体验度,实用性强。
- 视频资源的输出方法和服务器-201911013758.8
- 隋雪芹 - 青岛聚看云科技有限公司
- 2019-10-23 - 2020-01-24 - G10L15/08
- 本发明实施例提供一种视频资源的输出方法和服务器,服务器在获取到显示设备发送的经第三方软件进行语音识别得到的语音信息对应的初始语音文本之后,不是直接输出该初始语音文本对应的视频资源,而是先根据初始语音文本和语音文本库,确定初始语音文本对应的准确度较高的目标语音文本,并向显示设备输出该目标语音文本对应的视频资源,由于语音文本库中的语音文本均为发生过用户点击操作的标准的语音文本,这样可以有效地避免因语音识别错误而导致输出的视频资源的准确度不高,从而有效地提高了服务器输出的视频资源的准确度。
- 一种语音控制方法及装置-201910914019.X
- 胡志华;贾巨涛;谢俊杰;胡天云;魏德平 - 珠海格力电器股份有限公司;珠海联云科技有限公司
- 2019-09-25 - 2020-01-17 - G10L15/08
- 本申请涉及一种语音数据控制方法及装置,包括:获取终端上传的语音数据;根据语音数据得到用户意图信息;根据知识图谱的图数据库中的管控词与用户意图信息之间的匹配情况判断用户意图信息是否用于管控终端;在用户意图信息是用于管控终端的时候,将与用户意图信息表征的意图对应的管控指令下发至终端,使终端执行与管控指令相应的动作。本申请通过在云端服务器进行语义解析处理,得到用户意图信息,将其与知识图谱的图数据库中的管控词进行对比,如果命中,就执行唤醒设备操作;这种方法可以在知识图谱的图数据库中设置多个管控词,后期修改或更新管控词也比较方便,并且可以实现在线更换或更新管控词操作,提高对终端进行语音数据管控的命中率。
- 一种芯片平台离线语音共享控制系统-201920397023.9
- 戴杰 - 深圳君正时代集成电路有限公司
- 2019-03-27 - 2020-01-07 - G10L15/08
- 本实用新型公开了一种芯片平台离线语音共享控制系统,包括麦克风;语言降噪增强模块;语言识别模块,所述语言识别模块包括语种分析模块;语言数据库,所述语言数据库包括语言学习模块和语言数据更新模块;信息分发模块;语言执行模块;语言共享模块,所述语言共享模块包括信号收发端;XL芯片平台,所述XL芯片平台包括信息接收模块、界面操控模块和信息处理模块,其中,所述麦克风电性连接语言降噪增强模块,所述语言降噪增强模块电性连接语言识别模块,所述语言识别模块电性连接语言数据库,本实用新型结构简单,设计新颖,实现功能的娱乐化和操作的简单化,降低用户学习成本,更加便于用户进行控制使用。
- 一种基于MFCC的语音数字识别方法-201910889983.1
- 朱静;杨盛元;尹邦政;陈明希;杨强;魏慧棠;何海城;李浩明 - 广州大学
- 2019-09-20 - 2019-12-31 - G10L15/08
- 本发明涉及语音识别技术,具体为一种基于MFCC的语音数字识别方法,首先对输入的语音信号进行采样,对采样后的语音信号进行预处理;对采样及预处理后的语音信号进行端点检测,提取出单个数字语音信号;提取每一个数字语音信号的MFCC特征;利用均方误差MSE的方法将每一个数字语音信号的MFCC特征与通过训练获得的MFCC数字语音信号参数模板进行匹配,识别出语音信号中的数字。该方法将MFCC特征与MSE结合实现语音数字的识别,不仅识别率高而且避免了大量的数据计算,识别效率高,且可应用在环境较为复杂的情形下。
- 盲人用的图书借阅方法及系统、计算机可读存储介质-201910690887.4
- 陈桃花;罗辉;李万建;朱鹏惠;苏明珠;李雯雯;钟志威 - 深圳市奥芯博电子科技有限公司
- 2019-07-29 - 2019-12-17 - G10L15/08
- 本发明提供了一种盲人用的图书借阅系统,包括:监听模块,用于实时监听是否接收到借阅指令。语音获取模块,用于当所述监听模块实时监听接收到所述借阅指令,则获取发出所述借阅指令的盲人发出的借阅语音关键词。查找模块,用于根据所述借阅语音关键词,查找到要借阅的图书所在的第一位置。语音导航模块,用于根据所述第一位置,生成相应的导航路线,并通过语音指示所述盲人按照所述导航路线前行。本发明还提供了一种盲人用的图书借阅方法及计算机可读存储介质,与现有技术相比,本发明能够解决盲人在图书馆找书难的问题。
- 提供语音识别服务的方法及其电子装置-201310219190.1
- 金周炫;曹永益 - 三星电子株式会社
- 2013-06-04 - 2019-12-10 - G10L15/08
- 一种提供语音识别服务的方法及其电子装置。所述方法包括:根据通过麦克风输入的语音命令显示一个或多个应用程序,当所述一个或多个应用程序中的任意一个被选择时,考虑语音命令确定将在选择的应用程序中被驱动的另外的服务,并显示所述另外的服务。
- 基于正弦模型的可变频语音合成系统及方法-201610810252.X
- 郑尚镇;杨萃;马碧云;宁更新;赵莹琦;曹燕 - 华南理工大学
- 2016-09-09 - 2019-12-10 - G10L15/08
- 本发明公开基于正弦模型的可变频语音合成系统及方法。所述系统包括电源模块、语音输入模块、合成语音输出模块、控制模块、处理模块和语音参数存储模块;其中,控制模块分别和语音输入模块、处理模块和合成语音输出模块相连接,控制模块、处理模块又和语音参数存储模块相连接,电源模块与系统中的前述各构成模块相连接,为整个装置供电;该系统通过提取语音的正弦分量参数以建立语音正弦参数库,当系统的语音正弦参数库没有存储需要输出的语音信息时,能通过实时录入语音并提取正弦分量参数或者通过网络搜索下载的方式丰富语音正弦参数库。
- 一种车载电器智能控制装置-201910846363.X
- 杜巧玲;吴谦;黄达 - 扬州莱诺汽车科技有限公司
- 2019-09-09 - 2019-12-06 - G10L15/08
- 本发明属于汽车电子技术领域,尤其涉及一种车载电器智能控制装置。所述车载电器智能控制装置包括:语音采集模块:模式识别模块,与所述语音采集模块电连接;模式控制模块,与所述模式识别模块电连接;多个指令识别模块,每个指令识别模块分别与所述模式控制模块电连接;车载CPU,分别与所述每个指令识别模块电连接:以及车载设备,与所述车载CPU电连接。本发明通过数据库匹配技术,并设置语音模式数据库,普通话、方言、外语、自定义等多种语音模式下的指令数据库,实现语音模式和指令信号的自动识别,提高指令识别成功的概率,增强语音识别的精准性和灵活性。
- 言语内容分析系统和言语内容分析方法-201480060938.0
- 池昌真 - 系统翻译国际有限公司
- 2014-09-18 - 2019-12-06 - G10L15/08
- 本发明公开一种对录取的语音数据的基于核心语提取的言语内容分析系统和利用该系统的索引方法及言语内容分析方法。该系统的索引部用于输入语音数据并按照帧单位执行音素基准的语音识别来形成音素格,对由多个帧构成的限制时间的帧生成被分割的索引信息并存储于索引数据库,其中被分割的索引信息包括按不同的限制时间的帧形成的音素格。检索部用于将用户输入的核心语作为检索语,对索引数据库中存储的被分割的索引信息通过音素基准的比较而检索与所述检索语相一致的音素串,对相一致的音素串通过精密的声学分析来找出与检索语相应的语音部分,分析部用于通过所述检索部检索的检索结果分析主题语并输出给用户,从而能够对所述语音数据的言语内容进行分析。
- 一种音频数据识别结果的调整方法及装置-201510392612.4
- 刘赵杰 - 无锡天脉聚源传媒科技有限公司
- 2015-07-06 - 2019-11-29 - G10L15/08
- 本发明公开了一种音频数据识别结果的调整方法及装置。所述方法包括:在接收到第一音频数据的第一识别结果时,获取所述第一识别结果中的指定文字信息;从所述第一音频数据中确定所述指定文字信息所对应的指定音频数据;获取所述指定音频数据的发音,并从已经建立的词频统计模型中获取与所述发音对应的目标候选信息;使用所述目标候选信息替换所述指定文字信息,以对所述第一识别结果进行调整。通过本发明的技术方案,能够自动地对语音识别结果进行调整,并最终实现提高人工校对音频数据识别结果时,音频数据识别结果的校对效率和准确性。
- 一种唤醒语音服务的方法和装置-201610656147.5
- 宋夏 - 广州视源电子科技股份有限公司
- 2016-08-11 - 2019-11-22 - G10L15/08
- 本发明公开了一种唤醒语音服务的方法和装置,所述方法包括:获取输入的语音;提取所述语音的声学特征;将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值;若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务;若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值;若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数;当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。采用本发明可提高语音服务唤醒的准确度,改善用户体验。
- 专利分类