[发明专利]一种二值权重卷积神经网络模块及其用于声纹识别的方法有效
申请号: | 202110060392.0 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112863520B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 刘波;吴海舸;张轩;蔡浩;葛伟;杨军 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/18 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 权重 卷积 神经网络 模块 及其 用于 声纹 识别 方法 | ||
1.一种二值权重卷积神经网络模块,其特征在于,包括地址生成单元、状态机控制单元和复用计算单元;状态机控制单元与地址生成单元以及复用计算单元连接;
所述状态机控制单元用于控制地址生成单元和复用计算单元,完成神经网络参数与语音声纹特征数据读写与计算;
地址生成单元用于产生神经网络参数的读取地址、语音声纹特征数据的读写地址;
复用计算单元对输入的语音声纹特征数据依次进行二值化的卷积计算、全连接计算和符号比较计算;判断输入的语音声纹特征数据是否与目标说话人的语音特征相匹配,并输出判断结果。
2.根据权利要求1所述的一种二值权重卷积神经网络模块,其特征在于,所述地址生成单元包括数据读地址模块、计算结果写地址模块、语音数据写地址模块、语音数据读地址模块、权重参数写地址模块和读写地址选择模块;
所述数据读地址模块用于生成读取接收到的说话人声纹特征数据时的基址,所述计算结果写地址模块用于生成神经网络计算完毕后写入结果的目标地址,所述语音数据写地址模块用于生成训练时存储目标语音数据时的目标地址,所述语音数据读地址模块用于生成神经网络加载语音声纹特征数据时的对应地址,所述权重参数写地址模块用于生成存储训练时得到的网络权重参数的目标地址;所述读写地址选择模块受状态机控制单元直接控制,数据读地址模块、计算结果写地址模块、语音数据写地址模块、语音数据读地址模块和权重参数写地址模块的输出,就是读写地址选择模块的输入数据,状态机控制单元发出控制信号到读写地址选择模块,控制读写地址选择模块数据的输出。
3.根据权利要求1所述的一种二值权重卷积神经网络模块,其特征在于,所述复用计算单元包括特征缓冲器模块、二维卷积计算模块、归一化单元、全连接缓冲器、智能计算模块组和阈值比较模块;
复用计算单元通过调用缓冲器模块、二维卷积计算模块和归一化单元进行二值化的卷积计算,特征缓冲器对输入的数据进行规整处理,并对规整处理后的数据进行排序,再通过二维卷积计算模块实现卷积运处后,经过归一化单元进行数据规整,将规整后的数据作为卷积计算的结果输出;
复用计算单元通过调用全连接缓冲器、智能计算模块组和归一化单元进行全连接计算,卷积计算的结果作为输入,经全连接缓冲器后进入智能计算模块组进行全连接计算,在智能计算模块组计算完后数据被送入归一化单元进行数据规整,随后将规整后的数据作为全连接计算的结果输出;
全连接计算的结果输入到阈值比较模块,进行符号比较计算,即与预设的阈值进行比较,并完成说话人身份的判定。
4.根据权利要求3所述的一种二值权重卷积神经网络模块,其特征在于,所述的归一化单元是指批标准化与线性整流单元,批标准化与线性整流单元包括批标准化单元与线性整流单元;
批标准化单元会对接收到的数据进行优化,将数据分布向正态分布靠拢,实现归一化的功能;时序上共打两拍,并做截位操作,截位后的数据输出到线性整流单元,所述线性整流单元通过非线性计算将批标准化单元输出的数据的负区间舍去,即实现非线性模块功能,将大于0的值保留,小于0的值置为0。
5.根据权利要求3所述的一种二值权重卷积神经网络模块,其特征在于,所述阈值比较模块包括符号比较器、数值比较器和二选一数据选择器,所述阈值比较模块用于实现两种比较分类方法,一种将数据输入符号比较器,根据输入数据的符号位进行比较,另一种是将数据输入数值比较器,根据数值进行比较,两种比较结果输入二选一数据选择器根据预先配置结果,由状态机控制选择其中一个结果作为最终的输出结果。
6.如权利要求5所述的一种二值权重卷积神经网络模块用于声纹识别的方法,其特征在于,包括如步骤:
步骤101:录入声音底库时进行训练得到权重数据,装载权重数据到本发明的复用计算单元,状态机控制单元处于设置权重模式,将全连接权重参数存到复用计算单元的存储单元中;
步骤102:权重数据装载完成后状态机控制单元转为空闲模式,当复用计算单元检测到有语音声纹特征数据时,状态机控制单元转为工作模式,先进入工作模式中的加载参数模式,复用计算单元预加载全连接权重参数,随后进入工作模式中的计算预处理模式,地址生成单元生成存放语音声纹特征数据地址,将语音声纹特征数据进行缓存,缓存完成后,状态机控制单元转为空闲模式;
步骤103;当缓存的语音数据帧数达到复用计算单元可以计算的帧数时,状态机控制单元转为工作模式,进入计算模式中的卷积计算状态,按照网络卷积步骤依次将语音数据帧送入复用计算单元进行卷积计算、批量归一化单元做数据规整,地址生成单元生成相应卷积计算结果写地址,将计算结果存储到数据存储单元;
步骤104:卷积及数据规整全部计算完成后,状态机控制计算模式进入全连接计算,地址生成单元生成相应读地址,将卷积计算的结果数据与预加载的全连接权重参数在复用计算单元进行全连接计算;
步骤105:全连接计算完成后,状态机控制计算模式进入符号比较计算,全连接计算得到的数据送入阈值比较模块与设置的阈值进行阈值比较;
步骤106:计算状态进入计算结束模式,将符号比较计算后得到的数据进行判定并输出结果,并由地址生成单元为判定输出的结果数据生成存储地址将结果存储;
步骤107:状态机控制单元的工作模式进入计算空闲模式,状态机控制单元进入空闲模式,整体计算完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110060392.0/1.html,转载请声明来源钻瓜专利网。