[发明专利]表示方法、语音识别方法、装置、电子设备在审
| 申请号: | 202010718281.X | 申请日: | 2020-07-23 |
| 公开(公告)号: | CN113971948A | 公开(公告)日: | 2022-01-25 |
| 发明(设计)人: | 罗浩能;张仕良 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/28 |
| 代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;张美洁 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 表示 方法 语音 识别 装置 电子设备 | ||
本申请实施例提供了一种表示方法、语音识别方法、装置、电子设备。其中,表示方法包括:获取待处理数据,其中,所述待处理数据为以下之一:待处理语音数据、待处理文本数据、待处理图像数据;获取对待处理数据对应的数据向量进行特征提取后生成的特征向量;通过过滤器对特征向量进行转换处理,获得用于自注意力计算的三元组,其中,三元组包括:查询向量、键向量和值向量;根据查询向量、键向量和值向量进行自注意力计算,获得对应的网络表示。通过本申请实施例提供的技术方案,可以直接减小自注意力机制对应的参数数量,进而减小应用自注意力机制的神经网络的参数数量,即减小神经网络所占用的内存,利于神经网络的普及。
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种表示方法、语音识别方法、装置、电子设备。
背景技术
自注意力机制(self-attention)是深度学习中的一种网络框架,广泛应用在自然语言处理、语音识别等领域。自注意力机制可以使得神经网络模型能够更加好地关联上下文,进而使得处理结果更加准确。
现有的自注意力机制中,一般通过线性变换矩阵,对输入的特征向量等进行线性变化,得到特征向量对应的Query、Key、Value,再根据每个特征向量对应的Query、Key、Value,通过对所有特征进行查询等,得到应用自注意力机制后的网络表示。
然而,这种注意力机制的参数数量较大,即在应用自注意力机制时占用的内存较大,导致自注意力机制不易进行普及,尤其不易普及至内存或缓存较小的设备中。
发明内容
本申请的目的在于提出一种表示方法、语音识别方法、装置、电子设备,以至少解决或缓解上述问题。
根据本申请实施例的第一方面,提供了一种基于自注意力机制的表示方法,包括:获取待处理数据,其中,所述待处理数据为以下之一:待处理语音数据、待处理文本数据、待处理图像数据;获取对待处理数据对应的数据向量进行特征提取后生成的特征向量;通过过滤器对所述特征向量进行转换处理,获得用于自注意力计算的三元组,其中,所述三元组包括:查询向量、键向量和值向量;根据所述查询向量、所述键向量和所述值向量进行自注意力计算,获得对应的网络表示。
根据本申请实施例的第二方面,提供了一种语音识别方法,包括:获取对待处理语音对应的数据向量进行特征提取后生成的语音特征向量;通过过滤器对所述语音特征向量进行转换处理,获得用于自注意力计算的三元组,其中,所述三元组包括:查询向量、键向量和值向量;根据所述查询向量、所述键向量和所述值向量进行自注意力计算,获得对应的网络表示;根据所述网络表示,对所述待处理语音进行识别。
根据本申请实施例的第三方面,提供了一种基于自注意力机制的表示装置,包括:获取模块,用于获取待处理数据,其中,所述待处理数据为以下之一:待处理语音数据、待处理文本数据、待处理图像数据;以及用于获取对待处理数据对应的数据向量进行特征提取后生成的特征向量;向量生成模块,用于通过过滤器对所述特征向量进行转换处理,获得用于自注意力计算的三元组,其中,所述三元组包括:查询向量、键向量和值向量;表示生成模块,用于根据所述查询向量、所述键向量和所述值向量进行自注意力计算,获得对应的网络表示。
根据本申请实施例的第四方面,提供了一种语音识别装置,包括:语音特征向量确定模块,用于获取对待处理语音对应的数据向量进行特征提取后生成的语音特征向量;向量生成模块,用于通过过滤器对所述语音特征向量进行转换处理,获得用于自注意力计算的三元组,其中,所述三元组包括:查询向量、键向量和值向量;表示生成模块,用于根据所述查询向量、所述键向量和所述值向量进行自注意力计算,获得对应的网络表示;识别模块,用于根据所述网络表示,对所述待处理语音进行识别。
根据本申请实施例的第五方面,提供了一种电子设备,包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的表示方法或者语音识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010718281.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一体式菲林模具的制作方法
- 下一篇:一种旋光材料的制备方法及应用





