“王龙标”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果43个，建议您升级VIP下载更多相关专利

[发明专利]一种低资源下利用迁移学习进行情感语音合成的方法-CN202010681019.2有效
发明人： 王龙标;徐杰;党建武;贡诚 -专利权人：天津大学
申请日： 2020-07-15 - 公布日： 2023-10-17 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种低资源下利用迁移学习进行情感语音合成的方法，包括以下步骤：步骤一，情感向量预训练：利用EMOV‑DB数据集对于一个语音情感识别模型进行训练，这一语音情感识别模型是由风格化端到端语音合成的基本方法GST+Tacotron2模型中风格向量提取部分进一步处理得到的；步骤二，语音合成模型预训练：对于基本的Tacotron2模型，利用LJSpeech‑1.1的数据集进行预训练；步骤三，进行迁移学习训练：对于基本的Tacotron2模型在编码器的结果上连接上步骤一中得到的中间结果，并进行迁移学习训练。本发明采用预训练和迁移学习的方法，能够充分利用单个说话人少量的情感数据，在一个统一的情感语音合成模型的基础上，合成出质量达到一定水平的、情感倾向明显的合成语音。
一种资源利用迁移学习进行情感语音合成方法

[发明专利]一种融合显式和隐式个性化信息的对话生成方法-CN202111051850.0有效
发明人：王瑞芳;贺瑞芳;王龙标;党建武 -专利权人：天津大学
申请日： 2021-09-08 - 公布日： 2023-10-13 - 主分类号： G06F16/332 文献下载
摘要：本发明公开了一种融合显式和隐式个性化信息的对话生成方法，包括如下步骤：1)构建显式个性化信息提取器，利用transformer中的编码器作为上下文编码器对上下文进行编码，再利用个性化‑上下文注意力机制对给定的个性化信息进行编码得到与上下文相关的个性化信息；2)构建隐式个性化信息生成器，利用vMF分布进行抽象和采样得到隐式个性化信息；3)构建个性化信息生成器，利用隐式个性化信息进行生成，用给定的个性化信息对其进行监督，保证隐式个性化信息与上下文和显式个性化信息是相关的；4)构建回复生成器，将上述提到的显式个性化信息，隐式个性化信息以及上下文作为解码器的输入，最终得到对应的回复。提高回复中个性化的一致性，提升回复的多样性。
一种融合个性化信息对话生成方法

[发明专利]基于自学习文本表示的多话者多语种语音合成系统-CN202310715207.6在审
发明人： 王龙标;柴萌鑫;贡诚 -专利权人：天津大学
申请日： 2023-06-16 - 公布日： 2023-09-19 - 主分类号： G10L13/08 文献下载
摘要：本发明公开基于自学习文本表示的多话者多语种语音合成系统，自学习多语种文本表示，体现在两个模块中，即文本到SMTR的预测模块以及SMTR到多语言声谱的预测模块。具体包括构建基于自学习系统的SMTR提取方法；构建多语言文本到SMTR的预测方法；构建SMTR到多语言的声谱预测方法；融合SMTR的基于端到端的多语言语音合成方法。本发明能够提高多语言语音合成的准确度。
基于自学习文本表示多话语种语音合成系统

[发明专利]一种基于静态-动态注意力变分网络的对话生成方法-CN201911250610.6有效
发明人：贺瑞芳;王瑞芳;常金鑫;王龙标;党建武 -专利权人：天津大学
申请日： 2019-12-09 - 公布日： 2023-06-30 - 主分类号： G06F16/33 文献下载
摘要：本发明公开一种基于静态‑动态注意力变分网络的对话生成方法，包括如下步骤：1)构建上下文理解模块：利用包括句子编码器和上下文编码器构成的分层编码器，编码输入的上下文，得到关于对话上下文的历史向量；2)构建主旨提取模块：引入基于vMF分布的识别/先验(recognition/prior)网络和静态注意力机制得到全局结构信息的潜在表示和关于回复中心思想的主旨表示；3)构建回复生成模块：结合解码器、动态注意力机制，将历史向量，潜在表示和主旨表示作为输入，捕获局部产生更加多样性和有意义的回复。该对话生成方法利用静态和动态注意力机制从全局和局部的角度捕获相关信息，生成更加语义相关和多样化的回复。其实验结果在相较现在的模型在各项实验指标上取得了更好的结果。
一种基于静态动态注意力网络对话生成方法

[发明专利]一种基于回复者个人特征增强的对话生成方法-CN201911062516.8有效
发明人：贺瑞芳;王瑞芳;常金鑫;王龙标;党建武 -专利权人：天津大学
申请日： 2019-11-03 - 公布日： 2023-06-30 - 主分类号： G06F16/33 文献下载
摘要：本发明公开了一种基于回复者个人特征增强的对话生成方法，包括如下步骤：1)构建2个encoder‑decoder基本框架；2)利用vMF分布在encoder‑decoder模型上构建基于vMF分布的VAE模型作为个人特征提取器，得到基于上下文的回复者个人特征潜在变量；3)利用个人特征潜在变量和vMF分布在encoder‑decoder模型上构建CVAE生成模型作为信息增强生成器，得到融合回复者个人特征潜在变量和上下文的响应。该对话生成方法通过建模回复者的个人特征和上下文，得到能够有效反应回复者的个人特征的响应并在相关评价指标上取得更好的结果。
一种基于回复个人特征增强对话生成方法

[发明专利]基于提示学习的对话行为识别系统-CN202310304449.6在审
发明人：杨鹏飞;庄志强;司宇珂;王龙标 -专利权人：天津大学
申请日： 2023-03-27 - 公布日： 2023-06-23 - 主分类号： G06F16/332 文献下载
摘要：本发明属于对话行为识别技术领域，具体为一种基于提示学习的对话行为识别，通过设计和优化特定的提示信息，来提高对话行为识别的准确率和泛化能力。引入提示学习，结合手工设计的模板和预训练语言模型，构建一个针对对话行为识别的混合模板，将模板的某些部分视为可调参数(SoftTokens)，在训练过程中进行更新和微调，以此提高模型的准确性和鲁棒性。还采用了语言转化器技术，将标签转化为自然语言描述，进一步提高模型的可解释性和泛化能力。
基于提示学习对话行为识别系统

[发明专利]基于性别、国籍和情感信息的声纹识别方法-CN202010011692.5有效
发明人：党建武;李凯;王龙标 -专利权人：天津大学
申请日： 2020-01-06 - 公布日： 2023-06-06 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了基于性别、国籍和情感信息的声纹识别方法,步骤具体如下：首先数据预处理，其次特征的提取，然后神经网络参数训练：神经网络的具体结构，在训练过程中，首先打乱训练句子的输入顺序，然后随机选择128句作为一个训练batch，数据迭代次数为80；打分融合工具需要的训练文件是每一个系统的开发集和测试集结果；测试集使用的是VOXCELEB1 test；开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件；然后经过100次迭代得到最终的测试集打分结果。本发明提升了识别率。
基于性别国籍情感信息声纹识别方法

[发明专利]一种基于脑电源成像的连续语音包络神经夹带提取方法-CN202110390302.4有效
发明人：张高燕;吴双;党建武;张卓;周迪;王龙标 -专利权人：天津大学
申请日： 2021-04-12 - 公布日： 2023-04-07 - 主分类号： A61B5/372 文献下载
摘要：本发明公开了一种基于脑电源成像的连续语音包络神经夹带提取方法，包括如下步骤：编制语音信号并提取语音信号包络；采集被试在语音信号刺激下的脑电数据；对采集的脑电数据进行预处理；对多个被试的脑电数据采用时空对准方法，提取电极空间共同神经响应；计算提取的电极空间共同神经响应在脑源空间的映射；基于mTRF算法由语音包络预测源空间共同神经响应；计算源空间上连续语音包络的神经夹带；由预测得到的源空间共同神经响应，与计算得到的共同神经响应在脑源空间的映射间的皮尔逊相关系数，评估神经夹带。本发明结合共同神经反应提取和源重构方法，便于在源空间中分析脑电和语音的耦合效应，分析连续语音感知和理解过程中人脑的工作机制。
一种基于电源成像连续语音包络神经夹带提取方法

[发明专利]基于自监督学习和互信息解耦技术的语音合成方法-CN202211191537.1在审
发明人： 王龙标;贡诚;张句;王宇光;关昊天 -专利权人：慧言科技（天津）有限公司
申请日： 2022-09-28 - 公布日： 2023-01-06 - 主分类号： G10L13/047 文献下载
摘要：本发明公开基于自监督学习和互信息解耦技术的语音合成方法，主要包括数据预处理；采用HUBERT和wav2vec模型作为预训练的大模型，并采用大量的无标签方式对齐进行训练；设计说话人分类和风格分类两个任务作为下游任务，固定训练模型的权重参数，用于得到任务相关的特征表示；利用互信息对Tspeaker和Tstyle进行解耦；将学习好的Tspeaker和Tstyle添加到端到端语音合成模型中，端到端语音合成模型采用encoder‑attention‑decoder结构。本发明提升多说话人和多风格语音合成的质量，同时提高合成模型对于少量数据的快速适应能力。
基于监督学习互信息解耦技术语音合成方法

[发明专利]基于混合文本表示和说话人对抗的混读语音合成方法-CN202211192528.4在审
发明人： 王龙标;贡诚;张句;王宇光;关昊天 -专利权人：慧言科技（天津）有限公司
申请日： 2022-09-28 - 公布日： 2022-12-30 - 主分类号： G10L13/02 文献下载
摘要：本发明涉及基于混合文本表示和说话人对抗的混读语音合成方法，具体涉及到利用对抗训练与元学习的方式对情感语音合成系统进行优化。包括数据预处理、混合文本表示、端到端语音合成基础模型的设计、添加对抗模块用来抹去文本表示中的音色信息、模型训练以及合成音频。本发明提升混读语音合成的流畅度，同时保持语音合成的音色，将语种和说话人进行解耦。合成语音中的不同语言之间可以保持一致的音色。
基于混合文本表示说话对抗语音合成方法

[发明专利]基于关键点编码和多脉冲学习的环境声音识别方法-CN201910101670.5有效
发明人：于强;姚艳丽;王龙标;党建武 -专利权人：天津大学
申请日： 2019-01-31 - 公布日： 2022-12-30 - 主分类号： G10L15/16 文献下载
摘要：本发明公开一种基于关键点编码和多脉冲学习的环境声音识别方法,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,使用RWCP数据库作为处理对象，整个系统包括以下三个部分：数据预处理、特征提取和分类器分类。本发明提出了一种基于稀疏关键点编码结合脉冲神经网络的方法，利用离散的脉冲进行声音的识别。为了充分利用整个时间窗内的有效信息，本发明采用多脉冲输出的学习算法，使用特定区间的脉冲数来引导神经元学习。
基于关键编码脉冲学习环境声音识别方法

[发明专利]一种基于深度学习的发音评测打分方法-CN202211085643.1在审
发明人： 王龙标;李志刚;关昊天;王宇光 -专利权人：苏州智言信息科技有限公司
申请日： 2022-09-06 - 公布日： 2022-12-06 - 主分类号： G10L15/01 文献下载
摘要：本发明涉及语音评测技术领域，具体涉及一种基于深度学习的发音评测打分方法。本发明通过语音识别的模型，用它来识别出音频的真实文本结果。然后是通过HMM‑DNN模型，用它来获取音频的后验概率。最后是通过打分模型，用它来对音素进行打分。在强制对齐前，使用语音识别模型，识别出音频的正确文本，避免了在强制对齐过程中，音频与文本不一致时，无法对齐到正确位置。同时使用深度神经网络构建打分模型，可拟合后验概率、元辅音、词性、声调、发音时长等多种信息，使得音素打分更加合理，更加准确。
一种基于深度学习发音评测打分方法

[发明专利]基于多帧预测的轻量级端到端语音合成系统构建方法-CN202210991094.8在审
发明人： 王龙标;刘钰澔;党建武 -专利权人：天津大学
申请日： 2022-08-18 - 公布日： 2022-11-22 - 主分类号： G10L13/027 文献下载
摘要：本发明属于语音合成领域，涉及基于多帧预测的轻量级端到端语音合成系统构建方法。包括多帧并行生成，基于VAE的快速并行，基于时序信息L‑VAE的快速并行，将全连接层换为一个长短时记忆网络，用它来提取深层信息，并且保证时序性，最后基于知识蒸馏的快速端到端语音合成系统构建。本发明使推理速度得到一个明显的提升而且克服了提升速度带来的音质的衰退，从而保证了其结果的正确以及自然性。
基于预测轻量级端到端语音合成系统构建方法

[发明专利]多口音语音识别的具有域对抗训练的自适应注意力方法-CN202210729139.4在审
发明人：杨颜冰;王龙标;侯庆志 -专利权人：天津大学
申请日： 2022-06-24 - 公布日： 2022-11-01 - 主分类号： G10L15/06 文献下载
摘要：本发明公开多口音语音识别的具有域对抗训练的自适应注意力方法。首先建立基于Transformer的对抗端到端网络，使用细分类的领域对抗训练对模型进行预训练，使模型具有更好的口音鲁棒性，产生口音鲁棒的语音识别特征；通过外部口音分类网络提取每条语音的口音判别性特征；建立基于自注意力机制的自适应模块，加载用对抗训练预训练好的Transformer模型，将生成器生成的特征和使用口音分类网络提取的口音特征一同输入到自适应模块中进生成的自适应特征输入到解码器中，推理时加载口音特征提取网络、自适应模块和语音识别网络。本发明提高多口音语音识别性能。此外，所提出的方法对看不见的口音有很好的性能提升。
口音语音识别具有对抗训练自适应注意力方法

[发明专利]基于高层信息监督的自蒸馏模型压缩算法-CN202210729125.2在审
发明人：徐强;王龙标;于强;党建武 -专利权人：天津大学
申请日： 2022-06-24 - 公布日： 2022-10-21 - 主分类号： G06N20/00 文献下载
摘要：本发明公开一种高层信息监督的自蒸馏模型压缩算法，主要包括构建基于ctc/conformer混合模型的teacher和student模型；预训练第一个阶段是预训练阶段，第二个阶段是NFSD将student模型的所有层两两一组进行分组，每个组内的较深层的网络输出作为另一层网络输出的指导信息，计算两层网络的均方误差损失，并求和所有组的均方误差损失，在student反向传播过程中，优化该均方误差损失和student模型本身的交叉熵损失。AFSD对于student模型的每一层，计算该层的输出与其之后的所有层的输出的相似度，并用此相似度对该层之后的所有层的输出进行加权求和，加权求和的结果作为该层的指导信息，在student反向传播过程中，优化该均方误差损失和student模型本身的交叉熵损失，直到student模型收敛。
基于高层信息监督蒸馏模型压缩算法

1
2
3
下一页»
尾页
共 43 条