[发明专利]基于双模态模型的语音识别方法、装置、设备及存储介质在审

专利信息
申请号: 202210151202.0 申请日: 2022-02-15
公开(公告)号: CN114519999A 公开(公告)日: 2022-05-20
发明(设计)人: 南海顺 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G10L15/02 分类号: G10L15/02;G10L15/06;G10L15/16;G10L15/25;G10L15/26;G10L19/02;G10L19/26;G06N3/04;G06N3/08;G06V20/40
代理公司: 北京鸿元知识产权代理有限公司 11327 代理人: 张娓娓;袁文婷
地址: 518033 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种人工智能技术领域,提供一种基于双模态模型的语音识别方法、装置、电子设备及计算机可读存储介质,其中方法包括:对将嘴部视频片段进行切分,切分后的数据包括视频流数据、音频流数据、以及文本数据;对视频流数据、音频流数据以及文本数据进行预处理,分别获取对应的图片序列数据、音频序列数据以及标准文本;通过构建的双模态模型对图片序列数据、音频序列数据进行特征提取,获取对应的图片序列特征向量、音频序列特征向量,并将图片序列特征向量与音频序列特征向量拼接在一起形成双模态特征向量;训练双模态模型;通过训练后的双模态模型识别用户的意图。本发明主要目的在于通过双模态模型识别用户唇部动作提升语音识别准确率。
搜索关键词: 基于 双模 模型 语音 识别 方法 装置 设备 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202210151202.0/,转载请声明来源钻瓜专利网。

同类专利
  • 音频识别方法、装置和存储介质及电子设备-202310028802.2
  • 林炳怀;王丽园 - 腾讯科技(深圳)有限公司
  • 2023-01-09 - 2023-10-27 - G10L15/02
  • 本申请公开了一种音频识别方法、装置和存储介质及电子设备。其中,该方法包括:获取目标音频,其中,目标音频对应的语言种类为预设语言种类集合中的至少一种,预设语言种类集合包含至少两种语言种类;按照目标音频对应的语言种类对目标音频进行第一音频识别,得到目标音频对应的文本特征;以及,对目标音频进行第二音频识别,得到目标音频对应的非文本特征;对文本特征和非文本特征进行整合处理,并基于整合得到的目标音频特征确定目标音频所属的情感类别,可应用在人工智能场景,涉及语音识别、自动驾驶等技术。本申请解决了音频识别准确性较低的技术问题。
  • 对话回合的检测方法、装置、设备、介质、程序产品-202211526525.X
  • 周青宇;王晓雪;卢星宇;赖少鹏 - 腾讯科技(深圳)有限公司
  • 2022-11-30 - 2023-10-27 - G10L15/02
  • 本申请提供了一种对话回合的检测方法、装置、设备、介质、程序产品;涉及基于人工智能的语音技术领域;方法包括:获取待检测语音数据对应的声学特征信息、文本信息和时间特征信息;对声学特征信息进行卷积处理,得到待检测语音数据对应的声学特征向量;对文本信息进行语义编码处理,得到文本信息对应的语义特征向量;对时间特征信息进行时间编码处理,得到待检测语音数据对应的时间特征向量;将声学特征向量、语义特征向量和时间特征向量进行融合处理,得到融合特征向量;基于融合特征向量进行分类处理,得到待检测语音数据是否对应对话回合的结束位置的检测结果。通过本申请,能够准确判断对话回合结束位置,显著改善用户体验。
  • 多对多的实时语音变音方法、设备及存储介质-202311220568.X
  • 徐儒芳;黄德安;陈子文 - 深圳麦风科技有限公司
  • 2023-09-21 - 2023-10-27 - G10L15/02
  • 本发明涉及音频处理领域,公开了一种多对多的实时语音变音方法、设备及存储介质。该方法包括:检测到变声处理请求时,根据变声处理请求,获取待变声的音频数据流,并根据变声处理请求,确定待变目标的预设音色音频;提取音频数据流的768维网络特征,提取预设音色音频的梅尔特征信息,并提取预设音色音频的音色编码特征;根据预先训练的多头注意力模型,对768维网络特征、梅尔特征信息以及音色编码特征执行特征交叉操作,得到目标音频特征;将目标音频特征翻译成时域音频波形能量数据;根据时域音频波形能量数据,执行语音增强操作,以响应变声处理请求。本发明使得计算资源较为有限的设备使用实时变声技术的实时性变高。
  • 处理音频数据的方法及装置、音频数据处理设备和介质-202311218395.8
  • 李林峰;黄海荣;曹阳 - 湖北星纪魅族集团有限公司
  • 2023-09-21 - 2023-10-27 - G10L15/02
  • 本公开的至少一实施例提供了一种处理音频数据的方法和装置、音频数据处理设备和计算机可读存储介质。本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据,分别从中提取语音特征和语音文本,继而基于语音特征和语音文本确定对音频数据的拒识概率,并且基于语音特征对该音频数据所属的场景进行分类,以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。该方法能够利用包括声音和文本的多模态信息进行拒识概率确定,并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景,从而基于两类结果的融合实现更准确的语音交互拒识判断。
  • 一种音频处理方法及装置-202211674936.3
  • 杨展恒;孙思宁 - 腾讯科技(深圳)有限公司
  • 2022-12-26 - 2023-10-27 - G10L15/02
  • 本申请提供了一种音频处理方法以及相关装置。本申请实施例可应用于人工智能领域。其方法包括:首先,获取音频信号,音频信号包括N个音频帧;其次,将N个音频帧输入至流式声学网络,得到N个音素特征及N个流式音频特征,N个音素特征用于表征音频信号的音素信息;接着,获取实体集合,实体集合包括预先构建的K个实体,K个实体对应于K个音素信息;然后,根据N个音素特征从实体集合中提取出L个实体,L个实体对应于N个音素特征;最后,将音频信号、N个流式音频特征及L个实体输入至非流式声学网络,得到文本识别结果。本申请实施例提供的音频处理方法,通过建立流式声学网络及非流式声学网络提高文本识别的准确性。
  • 一种基于神经网络的语音识别方法、终端设备及介质-201811182186.1
  • 王义文;王健宗;肖京 - 平安科技(深圳)有限公司
  • 2018-10-11 - 2023-10-27 - G10L15/02
  • 本发明适用于人工智能技术领域,提供了一种基于神经网络的语音识别方法、终端设备及介质,包括:获取待识别的语音序列,将所述语音序列分为至少两帧语音片段;对所述语音片段进行声学特征提取,得到所述语音片段的特征向量;在预设神经网络模型的概率计算层基于所述语音片段的特征向量,确定所述语音片段的第一概率向量;所述第一概率向量中的每个元素的值用于标识所述语音片段的发音为该元素对应的预设音素的概率;在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量,确定所述语音序列对应的文本序列,从而节省了语音识别的时间成本和人工成本。
  • 一种信息分类方法及装置、信息分类模型训练方法及装置-202110461596.5
  • 朱秋实;吴明辉;方昕;刘俊华 - 科大讯飞股份有限公司
  • 2021-04-27 - 2023-10-27 - G10L15/02
  • 本发明提供了一种信息分类方法和装置、信息分类模型的训练方法和装置。首先对第一模型进行训练。在训练过程中,对第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中,第一调整的每次迭代包括该迭代的第二调整,第二调整的每次迭代基于第一模型对第一样本集的处理,第一调整的每次迭代基于经迭代的第二调整的第一模型对第二样本集的处理。其中,第一样本集包含一个或多个第一样本,第二样本集包含一个或多个第二样本,各第二样本均具有对应的第一原始标签,该第一原始标签用于表征第二样本的类别。然后,调用已训练的第一模型处理待分类样本得到其第一特征,调用第二模型处理第一特征,以得到待分类样本的第一标签。
  • 齿音识别、消除方法、系统、介质及设备-202210375304.0
  • 陈修凯;李建华;朱马 - 上海艾为电子技术股份有限公司
  • 2022-04-11 - 2023-10-24 - G10L15/02
  • 一种齿音识别、消除方法、系统、介质及设备,识别方法包括通过深度学习方式获取音频信号的齿音判断值,所述齿音判断值包括第一齿音判断值和第二齿音判断值;根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。本申请的齿音识别方法通过深度学习方式获取音频信号中的齿音判断值,齿音判断值包括第一齿音判断值和第二齿音判断值,并使用第一齿音判断值和第二齿音判断值中的至少一种进行齿音判断以识别出音频信号中的齿音信号,提高了齿音信号识别的准确度。
  • 语音检测方法、装置、介质及电子设备-202110968230.7
  • 王志强;阮良;陈功;陈丽 - 杭州网易智企科技有限公司
  • 2021-08-23 - 2023-10-24 - G10L15/02
  • 本公开的实施方式提供了一种语音检测方法、装置、介质及电子设备,涉及语音识别技术领域。该方法包括:获取待检测信号,确定待检测信号对应的全频谱值;根据全频谱值确定待检测信号的偏值平坦度,根据偏值平坦度确定待检测信号的第一语音活动性检测结果;对待检测信号进行语音活动检测,得到第二语音活动性检测结果;根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。本公开可以检测出待检测信号中是否包含语音,可以有效提高语音活动性检测过程中语音命中率和非语音命中率。
  • 一种大屏会议语音唤醒的数据查询方法-202310867641.6
  • 班荣军 - 安徽声云智能科技有限公司
  • 2023-07-15 - 2023-10-20 - G10L15/02
  • 本发明公开了语音处理技术领域的一种大屏会议语音唤醒的数据查询方法,包括:语音信号的声学特征接收用户输入的数据语音信息,提取数据音频信息;通过预先训练得到的数据声学模型,对数据声学特征进行处理,得到数据语音信号的读音序列;对数据语音指令进行语音识别,得到数据语音识别结果,判断数据语音识别结果是否有效,如有效则执行数据语音识别结果;根据接收到的数据语音指令,该大屏会议语音唤醒的数据查询方法,结构设计合理,能够实现语音搜索查找数据,减少时间和精力在查找数据的工作上,提高工作效率,无需用户手动查询与其具有直接连到关系的数据区,实现多区域联动查找。
  • 一种语音唤醒方法、系统及存储介质-202310962207.6
  • 张志辉 - 重庆长安汽车股份有限公司
  • 2023-07-31 - 2023-10-20 - G10L15/02
  • 本发明公开一种语音唤醒方法、系统及存储介质,方法包括:1)获取一次唤醒词,比较一次唤醒词置信度与设定的一次唤醒阈值,大于时,唤醒;小于时,列为疑似唤醒样本;2)计算疑似唤醒样本对应的二次唤醒词置信度,比较二次唤醒词置信度与实时状态下的动态唤醒阈值,大于时,唤醒;小于,不唤醒。本发明通过引入唤醒动态阈值计算及疑似唤醒判断,根据车内环境设置唤醒动态阈值,在置信度与阈值比较的过程中,将部分置信度小于阈值但是又足够接近阈值样本进行二次判断处理,提高唤醒精度,且布置于车端,提高唤醒效率。
  • 一种增强噪声鲁棒性的语音识别方法和系统-202311075628.3
  • 柯登峰;王运峰;陈立德;徐艳艳 - 澳克多普有限公司;北京林业大学
  • 2023-08-25 - 2023-10-20 - G10L15/02
  • 本发明涉及语音信号处理技术领域,具体公开了一种增强噪声鲁棒性的语音识别方法和系统,包括获取噪声数据和具有文本标注的干净语音数据,基于干净语音数据和噪声数据生成加噪语音数据;对干净语音数据和加噪语音数据进行预处理提取干净语音数据和加噪语音数据的梅尔频谱;构建自动语音识别模型,将干净语音数据和加噪语音数据的梅尔频谱输入自动语音识别模型中,获得干净语音数据的识别结果和加噪语音数据的识别结果;基于文本、干净语音数据和加噪语音数据的识别结果训练自动语音识别模型,以获得训练好的自动语音识别模型;基于训练好的自动语音识别模型对含噪语音数据进行识别;该方法提升了自动语音识别模型的噪声鲁棒性。
  • 车辆特征的响应激活-201811177179.2
  • C·R·汉森;D·H·史密斯;X·F·赵;G·塔瓦尔 - 通用汽车环球科技运作有限责任公司
  • 2018-10-09 - 2023-10-20 - G10L15/02
  • 一个总体方面包括一种用于车辆的车辆特征的响应激活的系统,该系统包括:音频系统,其被配置为声明信息和车辆特征;存储器,其被配置为包括一个或多个可执行指令;控制器,其被配置为执行该可执行指令,并且其中该可执行指令使得该控制器能够:从位于车辆中的车辆乘员接收一个或多个语音输入,该语音输入关于车辆特征;响应于接收到的语音输入而从车辆特征信息数据库中检索车辆特征信息;提供车辆特征信息的音频描述信息;确定至少一个接收到的语音输入是否包括特征激活请求;响应于至少一个接收到的语音输入包括特征激活请求的肯定确定而向车辆特征提供车辆特征激活信息。
  • 移动终端语音分析系统-202110133543.0
  • 郭昆;陈文举;吉鹏云;陈羽中;张鹏;李钒效 - 福州大学
  • 2021-02-01 - 2023-10-20 - G10L15/02
  • 本发明涉及一种移动终端语音分析系统。包括:数据预处理模块,对输入的语音信号进行预处理,转换成RGB图像;语音识别模块,对RGB图像大小进行调整,输入神经网络进行训练,得到神经网络模型;待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型,输出预测结果;语音重构模块,实现从加速度信号重构出语音信号的功能;对于输入的加速度信号频谱图,重构模块内部基于自动编码器设计的神经网络会先对其进行处理,经过训练的神经网络模型,输出加速度信号对应的语音信号的频谱图,再使用Griffin‑Lim算法从语音信号频谱图还原出语音信号,达到从加速度信号重构出语音信号的目标。本发明能够实现完整的从加速度信号重构出语音信号的功能。
  • 一种指向性智能语音互动平台-202310976475.3
  • 陈晨;郑凌峰;王雪强;张佑康;祁煜 - 满住(苏州)科技有限公司
  • 2023-08-04 - 2023-10-13 - G10L15/02
  • 本发明公开了一种指向性智能语音互动平台,包括语音互动系统,所述语音互动系统包括语音识别单元、语言处理单元和展示单元,本发明涉及语音互动平台技术领域。该指向性智能语音互动平台,通过自然语言处理模型对客户语言进行处理,并以文字形式向客户进行展示,在客户确认文字正确时,再进行语音互动,保证互动的准确,且对客户语音中的音色识别,对客户进行区分,通过对客户语言重复性的监测,实现对客户语音的正确文字形式转换,生成对应音色特征下的语言训练样本,为自然语言处理模型的优化提供资料,以指向性优化的方式,保证系统对不同音色特征客户语音的准确识别,进而保证系统与客户之间的正常互动交流。
  • 基于无监督主动学习优化语音识别的方法、电子设备和存储介质-202310993584.6
  • 俞凯;郑之胜;马子阳;陈谐 - 思必驰科技股份有限公司
  • 2023-08-08 - 2023-10-13 - G10L15/02
  • 本发明公开基于无监督主动学习优化语音识别的方法、电子设备和存储介质,包括:使用多个不同的中间模型基于未标记的语音数据生成不同粒度级别的离散表征;使用两个预先训练好的语言模型来计算所述不同粒度级别的离散表征的多个困惑度,其中,所述语言模型包括一个通用语言模型和一个与目标文本关联的目标领域语言模型;使用基于困惑度的对比数据选择方法从所述多个困惑度中选择与目标文本最相关的语音数据。本申请实施例的方法通过分别使用不同层次的语义表征作为中间目标,最终筛选出在预算范围内最有价值的训练数据。
  • 适合硬件进行处理的语音关键字识别方法及系统-202310994777.3
  • 王琴;陈志宏;段靖坤;傅铄棋;绳伟光 - 上海交通大学
  • 2023-08-08 - 2023-10-13 - G10L15/02
  • 本发明提供一种适合硬件进行处理的语音关键字识别方法及系统,包括:语音关键字识别模型识别步骤:采集语音进行语音预处理,针对高采样率语音进行初始噪声消除与降采样;梅尔倒谱系数提取步骤:提取梅尔倒谱系数,在系数提取的基础上,采用混叠加窗处理和稀疏压缩处理,采用正弦频谱提升处理;动态时间规整计算步骤:提取出语音数据梅尔倒谱系数后,需要进行动态时间规整计算预处理,在规整路径计算的基础上,采用非线性差分处理、数据对齐处理、归一化处理和双阈值判决。本发明能够有效降低硬件计算和存储开销,实现语音关键字识别实时处理,适合边缘端硬件进行部署和处理,同时能够保证较高的语音关键字识别正确率。
  • 一种压弹式多级缓冲生成式AI通信方法-202310974882.0
  • 王志民;施鉴泓 - 北京中科深智科技有限公司
  • 2023-08-03 - 2023-10-13 - G10L15/02
  • 一种压弹式多级缓冲生成式AI通信方法,包括如下步骤:步骤一:客户提出问题通过ASR解析成文本指令传递给大语言模型解析;步骤二:大语言模型解析通过多媒体解答得出答案并通过TTS转换成答案语音传递给语音动作驱动运算,大语言模型解析、TTS转换以及语音动作驱动运算通过服务器并发技术进行服务器缓存,服务器缓存再通过云管边端同步多并发技术和云端服务的队列缓冲技术进行客户端缓存;步骤三:语音动作驱动运算将答案语音通过压弹式多并发缓冲存储技术将其在客户端缓存然后声音动作解析播放。本发明通过压弹式多级缓冲生成式AI通信技术解决了低延时、鲁棒性、事务完整性和减少服务器并发压力,最终以近实时的方式保证生成式AI结果呈现的通信技术。
  • 一种语音处理方法、装置、电子设备和存储介质-202311013794.0
  • 汪浩 - 亿咖通(湖北)技术有限公司
  • 2023-08-10 - 2023-10-13 - G10L15/02
  • 本发明提供了一种语音处理方法、装置、电子设备和存储介质,包括:获取用户语音指令;对语音指令进行识别,得到语音指令对应的语音文本;对语音文本进行语义理解,得到语义理解文本;将语义理解文本与热词库中的热词进行匹配;若匹配成功,则确定与语义理解文本匹配的目标热词,以及确定目标热词对应的标准控件指令名称;标准控件指令名称为可直接触发执行控件指令的控件指令原始名称;基于标准控件指令名称执行对应的指令操作。通过采用上述方法,基于多种表达方式组成该指令操作对应的多个热词,然后将语义理解文本与多个热词进行匹配,可以大大提高语音指令的匹配成功率,提高用户的语音功能体验。
  • 语音识别方法、装置、设备和介质-202311139226.5
  • 李杰 - 深圳市友杰智新科技有限公司
  • 2023-09-06 - 2023-10-13 - G10L15/02
  • 本发明属于语音技术领域,公开了一种语音识别方法、装置、设备和介质,方法包括:将语音信号输入权值量化后的语音识别网络模型进行推理,其中,推理时,若激活矩阵是未经过激活函数得到的,则统计激活值矩阵中对应浮点的最大值和最小值,然后该最大最小值计算激活值矩阵的q值;利用该q值对激活值矩阵中的所有激活值进行量化;q是定点数表示中的小数部分所占的位数;若激活值矩阵是经过激活函数后得到的,则统计激活值矩阵中对应浮点的最大值,根据该最大值计算激活值矩阵的q值,根据激活值矩阵的q值对激活值矩阵中的所有激活值进行量化。本发明提升了计算精度,进而提升语音识别的准确性。
  • 降低语音误识别的方法、装置、设备和介质-202311141027.8
  • 李杰 - 深圳市友杰智新科技有限公司
  • 2023-09-06 - 2023-10-13 - G10L15/02
  • 本发明属于语音识别技术领域,特别是涉及一种降低语音误识别的方法、装置、设备和介质,其中,方法包括:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对第一音素序列的位置信息进行位置标记,得到第二音素序列;按照随机概率在第二音素序列中增加识别标识,得到目标音素序列;使用目标音素序列训练待训练语音识别模型,得到语音识别模型。本发明以用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。
  • 定制声学模型-201910400081.7
  • 裴沐湖;莫轲文 - 声音猎手公司
  • 2019-05-14 - 2023-10-13 - G10L15/02
  • 本公开涉及定制声学模型。所公开的技术涉及针对多个不同设备、或处于多个状况下的设备执行语音识别。这包括:存储与不同设备或设备状况相关联的多个声学模型;接收包括自然语言表达的语音音频;接收指示设备类型或设备状况的元数据;根据接收到的元数据从多个声学模型中选择声学模型;以及采用选择的声学模型来从包括在接收到的语音音频中的自然语言表达中识别语音。语音识别和声学模型的存储中的每一个可以由设备在本地执行、或在网络连接的服务器上执行。还提供了平台和界面,以供设备开发者用来选择、配置、和/或训练针对特定设备和/或状况的声学模型。
  • 基于声学空间分布约束的越南语语音识别数据筛选方法-202310785589.X
  • 高盛祥;周杰;余正涛;王文君;曾令帆 - 昆明理工大学
  • 2023-06-29 - 2023-10-10 - G10L15/02
  • 本发明涉及基于声学空间分布约束的越南语语音识别数据筛选方法,属于自然语言处理技术领域。本发明包括步骤:将文本转换为音素序列,再使用越南语语音文本对齐模型将音素序列和无标签语料的语音对齐获得对齐的伪标签语料;对初始化的教师模型进行微调,并使用微调好的教师模型通过无标签语料数据得到伪标签语料;对对齐的伪标签语料和伪标签语料利用声学空间分布约束的声调贡献度进行筛选,再对学生模型进行自训练;得到最佳的越南语语音识别模型,并利用越南语语音测试集进行实验验证。本发明通过标签置信度来约束伪标签弱监督信号对于训练过程的贡献。在自训练的过程中添加伪数据筛选方法有效提升了低资源下的越南语语音识别上的识别效果。
  • 一种音频识别方法、装置、设备及计算机可读存储介质-202311000329.3
  • 向钊豫;范贤武;于洪举 - 湖南快乐阳光互动娱乐传媒有限公司
  • 2023-08-09 - 2023-10-10 - G10L15/02
  • 本申请公开一种音频识别方法、装置、设备及计算机可读存储介质获取现实用户输入的待处理音频数据,将该待处理音频数据输入至预先构建的音频识别模型,以得到预先构建的音频识别模型输出的音频识别结果,所述预先构建的音频识别模型为优化后的BERT模型。优化后的BERT模型能够直接对音频数据进行处理并输出音频数据,将音频‑文字‑知识库‑文字‑音频的处理流程简化为音频‑优化后的BERT模型‑音频。相比于需要对音频和文本进行二次转换的识别方式,本申请优化语音检索逻辑,简化了现有的语义理解模型处理流程,能够提高虚拟用户的音频识别效率及反应速度。
  • 一种语音识别方法、装置和设备-202310853948.0
  • 侯跃然;王标 - 北京陌陌信息技术有限公司
  • 2023-07-12 - 2023-10-10 - G10L15/02
  • 本申请提供的语音识别方法,包括:对待识别的语音进行特征提取,得到语音对应的多帧声学特征;将多帧声学特征分别输入到预先训练好的第一语音识别模型和预先训练好的第二语音识别模型,由第一语音识别模型基于输入的声学特征输出每帧声学特征对应的识别结果,并由第二语音识别模型基于输入的声学特征输出每帧声学特征对应的后验概率矩阵;根据所述识别结果确定由加权有限状态转录机WFST组成的搜索空间;针对每帧声学特征,将该帧声学特征对应的后验概率矩阵作为输入,在所述识别结果的约束下,在搜索空间执行解码操作,得到与该帧声学特征对应的对齐结果。本申请提供的语音识别方法、装置和设备,可同时兼顾内容识别准确性和边界对齐准确性。
  • 一种基于全局情感编码的虚拟人动画合成方法及系统-202110621463.X
  • 吴志勇;黄晖榕 - 清华大学深圳国际研究生院
  • 2021-06-03 - 2023-10-10 - G10L15/02
  • 本发明提出一种基于全局情感编码的虚拟人动画合成方法及系统,方法包括采用语音识别模型将输入语音特征转换为音素后验概率特征,利用噪声编码器获得模拟噪声序列,将模拟噪声序列与音素后验概率特征进行加和,获得带噪声的音素后验概率特征,通过全连接层得到全局内容特征;针对带情感语音,提取梅尔频率倒谱系数特征序列,通过双向门控循环单元网络,提取全局声学特征向量,设置隐向量矩阵,将全局声学特征向量与隐向量进行注意力计算,获得全局情感特征;将全局情感特征拼接到全局内容特征,通过双向长短时记忆网络建模上下文信息,生成对应情感以及对应口型信息的人脸动画参数,最终生成带情感的虚拟人动画。
  • 语音识别方法、装置、设备及计算机可读存储介质-202310798948.5
  • 李晶晶 - 潍坊歌尔电子有限公司
  • 2023-06-30 - 2023-10-03 - G10L15/02
  • 本发明公开了一种语音识别方法、装置、设备及计算机可读存储介质,方法包括:获取目标语音数据;通过人声识别模型对目标语音数据进行人声识别得到第一识别结果,第一识别结果表征是否存在人声;若第一识别结果表征目标语音数据中存在人声,则通过命令指向语音识别模型对目标语音数据进行命令指向识别得到第二识别结果,第二识别结果表征是否存在命令指向;若第二识别结果表征目标语音数据中存在命令指向,则通过命令信息识别模型对目标语音数据进行命令信息识别得到命令信息;若第一识别结果表征目标语音数据中不存在人声或者若第二识别结果表征目标语音数据中不存在命令指向,则返回执行获取目标语音数据。本发明实现一种降低设备耗电量的方案。
  • 语音处理方法、装置、设备及存储介质-202310947933.0
  • 冯志珍;鲁效平;徐春长;秦承刚;王迷珍 - 卡奥斯工业智能研究院(青岛)有限公司;卡奥斯物联科技股份有限公司
  • 2023-07-28 - 2023-10-03 - G10L15/02
  • 本申请实施例提供一种语音处理方法、装置、设备及存储介质,该方法包括:获取唤醒词语音信号中各单词的时长和声音信号振幅;判断单词的声音信号振幅与预设注册声纹中的目标单词的声音信号振幅是否一致,若否,则对单词的声音信号振幅进行缩放,以使单词的声音信号振幅与目标单词的声音信号振幅一致;目标单词为预设注册声纹中与单词相同的词;判断单词的时长与目标单词的时长是否一致,若否,则对单词的时长进行缩放,以使单词的时长与目标单词的时长一致,得到缩放后的唤醒词语音信号。这样可以克服输入的唤醒词语音的语速较快或较慢,以及音量较高或较低时提取的特征的准确率较低的问题,从而达到提高语音唤醒成功率、语音交互成功率的效果。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top