[发明专利]一种语音识别装置和方法有效
申请号: | 201710456932.0 | 申请日: | 2017-06-16 |
公开(公告)号: | CN109147773B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 上海寒武纪信息科技有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16 |
代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 李波 |
地址: | 201203 上海市浦东新区上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 装置 方法 | ||
本公开提供了一种语音识别装置,通过存储单元、运算单元和控制单元实现语音识别。
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语音识别装置和方法。
背景技术
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别(speech recognition;语音辨识/言语辨别)技术,也被称为自动语音识别(英语:Automatic Speech Recognition,ASR)、电脑语音识别(英语:Computer SpeechRecognition)或是语音转文本识别(英语:Speech To Text,STT),其目标是以电脑自动将人类的语音内容转换为相应的文字。
传统的语音识别引擎一般是实现声学模型、语言模型和解码器的硬件装置。声学模型可以计算输入语音信号的每帧的发音概率,语言模型可提供关于特定的单词、短语或句子的使用频率或特定的单词、短语或句子之间的连接性信息。解码器可基于考虑由声学模型和语言模型提供的各个信息,来计算并输出输入语音信号与特定的单词或句子的相似度。随着人工神经网络技术的发展,越来越多的人工神经网络技术被使用作为语音识别中的声学模型或者语言模型或者解码器。
在实现本公开的过程中,申请人发现上述现有技术存在如下技术缺陷:
(1)随着人工神经网络技术特别是人工神经网络中深度学习(deep learning)技术的发展,当前用于语音识别领域中声学模型或者语言模型或者解码器的神经网络模型规模越来越大,语音识别过程中的计算量也越来越大。
(2)计算量的几何倍数增长带来了语音识别设备的耗时、功耗、发热量的几何式增长。现有的计算硬件设备包括CPU、GPU、DSP、ASIC等很难满足大规模神经网络所需的计算量,即使计算量可以满足现有设备也有着识别延迟增加、以及识别装置的功耗过大、发热量过大等问题。这些问题直接限制了其在终端产品例如可穿戴设备、无线设备、智能手机、智能手表、智能眼镜、智能家居等以及云端产品例如数据中心、大型服务器等设备上的应用。
发明内容
(一)要解决的技术问题
有鉴于此,本公开的主要目的在于提供一种语音识别装置及方法,解决现有技术中存在的运算量过大、延迟过大、功耗过高、散热过大等问题。
(二)技术方案
本公开提供了一种语音识别装置,包括:存储单元和神经网络运算单元;所述存储单元,用于接收语音信号,并作为输入数据存储;所述神经网络运算单元,用于通过执行神经网络运算和/或通用运算对所述输入数据进行处理,得到语音识别结果。
在本公开的一些实施例中,所述神经网络运算单元包括:神经网络运算子单元和通用运算子单元;所述神经网络运算子单元用于执行神经网络运算;所述通用运算子单元用于执行通用运算。
在本公开的一些实施例中,还包括:控制单元,用于控制所述神经网络运算单元进行语音识别。
在本公开的一些实施例中,所述控制单元包括:指令缓存单元,用于存储待执行的指令;指令处理单元,用于从所述指令缓存单元获取指令并对所述指令进行译码;标量寄存器堆,用于存储所述指令对应的操作码和操作数;依赖关系处理单元,用于对所述指令及其对应的操作码和操作数进行判断,将所述指令提供给所述神经网络运算单元。
在本公开的一些实施例中,所述指令为神经网络运算指令,所述指令被提供给所述神经网络运算子单元;或者,所述指令为通用运算指令,所述指令被提供给所述通用运算子单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海寒武纪信息科技有限公司,未经上海寒武纪信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710456932.0/2.html,转载请声明来源钻瓜专利网。