专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果243326个,建议您升级VIP下载更多相关专利
  • [发明专利]自监督语音表征训练方法、系统、电子设备和存储介质-CN202211375757.X在审
  • 陈谐;马子阳;郑之胜 - 思必驰科技股份有限公司
  • 2022-11-04 - 2023-03-28 - G06N3/045
  • 本发明实施例提供一种自监督语音表征训练方法、系统、电子设备和存储介质。该方法包括:构建自监督语音表征学习主干网络;基于编码网络对原始语音进行采样得到语音表征;将语音表征遮蔽处理后作为内容网络的输入,输出带有遮蔽表征的聚合语音表征;将聚合语音表征中的遮蔽表征分别输入至在线目标提取器和自监督预训练的离线目标提取器,确定在线提取损失和离线提取损失;基于在线提取损失和离线提取损失对自监督语音表征学习主干网络进行梯度反向传播训练。本发明实施例通过多任务学习的方式整合多目标,可以学习更准确的语音表征,同时模型的收敛速度也得到了提升,实现在不降低效果的情况下提升模型的收敛速度,从而节约训练成本。
  • 监督语音表征训练方法系统电子设备存储介质
  • [发明专利]改进掩码策略的自监督语音表征方法及相关设备-CN202210517669.2在审
  • 张旭龙;王健宗;程宁 - 平安科技(深圳)有限公司
  • 2022-05-12 - 2022-08-30 - G10L25/30
  • 本申请涉及人工智能技术领域,尤其涉及一种改进掩码策略的自监督语音表征方法及相关设备。所述方法包括根据基于语音和音素级别的改进掩码策略对预处理后的语音数据做掩码处理,并进行Transformer模型训练,得到训练好的自监督语音表征模型;将待表征语音数据输入至训练好的自监督语音表征模型中,获得目标表征数据。本申请还涉及区块链技术,利用改进后的掩码策略处理后的语音数据可存储于区块链中。本方案采用自监督学习模型对语音数据进行了改进的掩码处理,处理后的语音数据表征训练具有更高复杂度,因而得到的模型更具高级别的表征能力,能有效改进下游语音处理任务的准确率。
  • 改进掩码策略监督语音表征方法相关设备
  • [发明专利]基于跨模态表征对齐的英越端到端语音翻译方法-CN202310646473.8在审
  • 余正涛;周国江;高盛祥 - 昆明理工大学
  • 2023-06-02 - 2023-08-29 - G06F40/58
  • 本发明涉及基于跨模态表征对齐的英越端到端语音翻译方法,属于自然语言处理技术领域。本发明基于英语音表征与文本表征的长度信息,进行对齐并分别混合得到词级与句子级的混合表征;使用长度归一化融合方法统一混合表征与音频表征的长度以减轻混合表征语音表征之间由长度导致的模态差异问题,使用门控融合方法对混合表征进一步融合得到多粒度混合表征作为解码器输入,对不同模态的输出进行一致性在多任务训练框架下约束,实现英语语音表征与对应文本表征的跨模态对齐。本发明为后续在英语到越南语端到端语音翻译以及语音与文本跨模态表征对齐等工作提供强有力的支撑,缓解了英语到越南语语音翻译的跨模态映射困难问题。
  • 基于跨模态表征对齐英越端到端语音翻译方法
  • [发明专利]基于层次化蒸馏的语音识别模型的训练方法及相关设备-CN202310345272.4在审
  • 韩明伦;石晶;徐爽;徐波 - 中国科学院自动化研究所
  • 2023-03-31 - 2023-07-28 - G10L15/26
  • 本发明提供一种基于层次化蒸馏的语音识别模型的训练方法、装置、电子设备和存储介质,其中方法包括:确定训练语音文本对,得到训练语音文本对对应的高阶声学表征,并确定训练语音文本对对应的语言学表征;基于预训练语言模型确定训练语音文本对的预训练语言学表征,并对高阶声学表征和预训练语言学表征进行归一化处理,得到第一归一表征和第二归一表征;基于第一归一表征和第二归一表征得到声学层次的第一蒸馏损失,以及基于语言学表征和预训练语言学表征得到语言学层次的第二蒸馏损失;基于声学层次的第一蒸馏损失和语言学层次的第二蒸馏损失,确定语音识别模型是否训练完成,并在训练完成时得到语音识别模型。提高了语音识别模型的识别准确率。
  • 基于层次蒸馏语音识别模型训练方法相关设备
  • [发明专利]一种语音转换模型的确定方法和相关装置-CN202210270401.3在审
  • 陈新;孙闳绅;刘世兴;王智圣;郑磊;丁丹俊 - 腾讯科技(深圳)有限公司
  • 2022-03-18 - 2023-09-26 - G10L15/06
  • 本申请实施例公开了一种语音转换模型的确定方法和相关装置,至少涉及人工智能中的机器学习,将源语者的源语音片段输入至编码子模型中,训练编码子模型得到源语音片段的内容表征,其中,内容表征用于表征语音的内容信息,如音素序列、转折音、情绪、语气等,通过训练编码子模型能够隐式的表征语音,降低其对语音表征约束力,相比于相关技术,通过编码子模型得到的内容表征能够包括语音中相对更完整的内容信息,故通过训练好的编码子模型得到的内容表征语音的表述更为准确,从而根据更为准确的目标语音片段的内容表征训练得到的解码子模型更为准确,使得包括编码子模型和解码子模型的语音转换模型更为准确,提高了语音转换的自然度。
  • 一种语音转换模型确定方法相关装置
  • [发明专利]改进的预训练方法、电子设备和存储介质-CN202310706125.5在审
  • 俞凯;马子阳;郑之胜;杨冠柔;陈谐 - 思必驰科技股份有限公司
  • 2023-06-14 - 2023-09-15 - G10L15/06
  • 本发明公开改进的预训练方法、电子设备和存储介质,其中,预训练方法,用于预训练模型,所述预训练模型包括单元生成模块和主干网络,包括:利用所述主干网络对语音进行降采样得到第一语音表征,使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征,对所述第二语音表征进行聚合得到输出语音表征;对于所述输出语音表征的被遮蔽部分,与所述单元生成模块提取的离散目标计算损失,并在所述主干网络中进行梯度反向传播。本申请实施例提出了一个通过无监督算法提升自监督语音表征学习的框架,优化自监督学习的训练目标,在ASR任务上效果超过最先进的模型,同时在多项非ASR任务上取得好的效果。
  • 改进训练方法电子设备存储介质
  • [发明专利]一种假音检测方法、假音检测模型获取方法及相关设备-CN202310492726.0在审
  • 唐海桃;高天;徐文渊;陈艳姣;方昕;刘俊华;刘聪 - 科大讯飞股份有限公司
  • 2023-04-28 - 2023-07-07 - G10L25/51
  • 本发明提供了一种假音检测方法、假音检测模型获取方法及相关设备,假音检测方法包括:获取目标语音;基于预先获得的目标假音检测模型,检测目标语音是否为假音,目标假音检测模型采用标注有语音类别的训练语音对构建的假音检测模型训练得到,构建的假音检测模型包括语音编码器、根据语音编码器的输出获取说话人表征的说话人表征模块、根据语音编码器的输出获取假音表征的假音表征模块,以及根据说话人表征模块的输出和假音表征模块的输出进行语音分类的语音分类模块,说话人表征模块通过结合说话人分类任务,辅以语音编码器训练得到,语音编码器为通过预训练获得的语音预训练模型。本发明提供的假音检测方法可准确地检测出语音是否为假音。
  • 一种检测方法模型获取相关设备
  • [发明专利]一种不依赖发音词典的语音合成系统及方法-CN202210177013.0在审
  • 刘畅;凌震华 - 中国科学技术大学
  • 2022-02-24 - 2022-05-13 - G10L13/02
  • 本发明公开了一种不依赖发音词典的语音合成系统及方法,系统包括:语种无关的语音识别模型、文本‑发音表征预测模型、发音表征‑声学预测模型和神经网络声码器。该系统及方法通过训练一个语种无关的自动语音识别模型,能自动地从目标语种的语音数据中提取发音表征,继而将发音表征用于构建语音合成系统。所构建语音合成系统首先从文本字符预测发音表征,再从发音表征生成语音。本发明可以解决传统语音合成方法在构建多语种语音合成系统时依赖语种相关发音词典的问题。发音词典的建立往往需要语言专家参与,耗费大量人力与时间。该方法相对现有从文本字符直接预测语音声学特征的方法可以降低合成语音中的发音错误,提高合成语音的自然度。
  • 一种不依赖发音词典语音合成系统方法
  • [发明专利]一种基于语音深度表征映射的语音翻译方法及系统-CN202211244884.6有效
  • 郑书凯;李太豪;阮玉平;黄剑韬 - 之江实验室
  • 2022-10-12 - 2023-01-31 - G10L15/00
  • 本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域,涉及人工智能领域,本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案;本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成,可实现语音翻译发音音色指定可控,并且能够使得合成的语音保真度更高;本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法,能够实现语音直接翻译任务,简化了语音翻译的流程,提高了语音翻译的精度。
  • 一种基于语音深度表征映射翻译方法系统
  • [发明专利]基于文本的语音编辑方法、系统、电子设备和存储介质-CN202211696422.8在审
  • 俞凯;陈谐;梁正;杜晨鹏 - 思必驰科技股份有限公司
  • 2022-12-28 - 2023-04-14 - G10L13/08
  • 本发明实施例提供一种基于文本的语音编辑方法、系统、电子设备和存储介质。该方法包括:将编辑文本输入至文本编码器,确定编辑文本中修改部分对应的语音时长,基于语音时长以及编辑文本的音素编码确定编辑文本的文本表征;将语音时长以及编辑文本修改前的语音输入至语音编码器,基于语音时长对修改前的语音中对应修改部分进行遮盖,得到声学表征、带有遮盖上下文的隐藏表征以及带有遮盖区域的梅尔频谱;将文本表征、遮盖后的声学表征以及隐藏表征输入至联合网络,得到遮盖区域对应的预测梅尔频谱。本发明实施例能够让模型利用原语音的上下文信息,从而预测出更符合原音频的编辑区语音,并且也能避免拼接方法产生的语音不自然和不连续现象。
  • 基于文本语音编辑方法系统电子设备存储介质
  • [发明专利]基于多模态对齐与多向量表征的人格检测方法-CN202010070066.3有效
  • 陈承勃;权小军 - 中山大学
  • 2020-01-21 - 2023-05-23 - G06V10/764
  • 本发明公开一种基于多模态对齐与多向量表征的人格检测方法,包括将语音和视频模态数据按每个epoch进行重采样;将数个样本及其文本模态数据输入模态内表征模块进行独立编码,得到语音序列、视频序列和文本序列;将语音序列、视频序列和文本序列输入模态间对齐表征模块以两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;将所有语音表征、所有视频表征和所有文本表征分别拼接得到语音向量、视频向量和文本向量,输入卷积神经网络转化为至少两类人格向量本发明通过3个模态数据的两两交互增强模态表征,提高模型的辨别能力,得到更为精准的预测结果。
  • 基于多模态对齐多向表征人格检测方法

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top