[发明专利]识别语音的方法及其电子装置有效
申请号: | 201310301732.X | 申请日: | 2013-07-15 |
公开(公告)号: | CN103544955B | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 李在原;陆东锡;林贤泽;金兑润 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/02 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 张云珠;韩明星 |
地址: | 韩国京畿*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 语音 方法 及其 电子 装置 | ||
提供一种识别语音的方法及其电子装置。所述方法包括:以预设时间间隔将语音信号分段为多个片段;通过使用第一声学模型来执行针对语音信号的多个片段中的一个片段的音素识别;通过使用音素识别结果来提取所述语音信号的多个片段中的所述一个片段的候选词语;通过使用候选词语来执行针对所述语音信号的多个片段中的所述一个片段的语音识别。
本申请要求于2012年7月13日提交到韩国知识产权局的第10-2012-0076809号韩国专利申请的优先权,其公开通过引用全部合并于此。
技术领域
与示例性实施例一致的方法和设备总体涉及识别语音,更具体地讲,涉及通过使用声学模型、语言模型和发音字典识别用户发出的语音。
背景技术
通过使用电子装置(诸如,智能电话、导航系统等)来控制语音识别。随着电子装置的硬件性能的提高以及用户对于语音识别的需求程度的增加,用户环境已经从用许多现有的命令识别用户的语音的孤立词语识别方法改变为识别多种自然语言的连续语音识别方法。
连续语音识别方法从数十万到数百万词语中识别包括至少一个词语的词语串,并针对所有可用词语形成搜索空间。连续语音识别方法通过使用包括声学模型、语言模型和发音字典的信息来计算概率,以确定相应的发音是否是句子的类型,并根据计算结果获得识别的句子。
然而,在连续语音识别方法中,搜索空间变得更大,因此,存储需求增加。由于计算次数的增加,语音识别是不可行的或者可能被极大地降低。
因此,需要快速识别多种自然语言的语音识别方法。
发明内容
示例性实施例解决至少上述问题和/或缺点以及上面未描述的其它缺点。另外,示例性实施例不需要克服上述缺点,并且示例性实施例可不克服任何上述问题。
示例性实施例提供一种进一步快速识别多种自然语言的语音识别方法及其电子装置。
根据示例性实施例的一方面,提供一种在电子装置中识别语音的方法。所述方法可包括:以预设时间间隔将语音信号分段为多个片段;基于第一声学模型来执行针对语音信号的多个片段中的一个片段的音素识别;基于音素识别的结果来提取所述语音信号的多个片段中的所述一个片段的候选词语;基于候选词语来执行针对所述多个片段中的所述一个片段的语音识别。
执行音素识别的步骤可还包括:基于分段的维特比算法来删除所述语音信号的多个片段中的所述一个片段的多个音素的至少一个最后音素。删除的至少一个音素可被用于执行针对所述多个片段中的所述一个片段之后的语音信号的下一片段的音素识别。
提取的步骤可包括:提取与识别的音素发音相似的相似音素;基于所述相似音素来产生用于提取所述多个片段中的所述一个片段的候选词语的词语图表。
执行语音识别的步骤可还包括:基于第二声学模型来计算所述多个片段中的所述一个片段的语音信号的高斯概率;基于第二声学模型和语言模型来输出在词语图表中具有最高概率的词语串。
第一声学模型和第二声学模型可彼此不同。
可通过不同的核并行执行音素识别的执行、提取和语音识别的执行。
根据另一示例性实施例的一方面,提供一种电子装置,包括:语音信号输入部件,被配置为接收语音信号;语音信号分段器,被配置为以预设时间间隔将通过语音信号输入部件输入的语音信号分段为多个片段;音素识别器,被配置为基于第一声学模型来执行针对语音信号的多个片段中的一个片段的音素识别;候选词语提取器,被配置为基于音素识别的结果来提取所述语音信号的多个片段中的所述一个片段的候选词语;语音识别器,被配置为基于候选词语来执行针对所述多个片段中的所述一个片段的语音识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310301732.X/2.html,转载请声明来源钻瓜专利网。