“黄东延”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果47个，建议您升级VIP下载更多相关专利

[发明专利]说话头视频合成方法、装置、终端设备及可读存储介质-CN202210611253.7有效
发明人：丁万;黄东延;颜霖煌;杨志勇 -专利权人：深圳市优必选科技股份有限公司
申请日： 2022-05-31 - 公布日： 2023-10-24 - 主分类号： H04N21/81 文献下载
摘要：本申请适用于终端技术领域，尤其涉及说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法中，终端设备获取目标文本和目标图像后，确定目标文本对应的声学特征和目标图像对应的副语言特征，以根据目标文本对应的声学特征和目标图像对应的副语言特征得到目标文本对应的合成语音。另外，终端设备确定目标文本对应的目标嘴部动作序列，并根据目标嘴部动作序列和目标图像得到目标用户对应的脸部动作视频。最后，终端设备对合成语音和脸部动作视频进行同步处理，得到目标用户对应的说话头视频。即本申请可以结合目标用户对应的副语言特征，得到目标文本对应的合成语音，使得说话头视频中包含符合用户期望的副语言信息，提升用户体验。
话头视频合成方法装置终端设备可读存储介质

[发明专利]说话头视频合成方法、装置、电子设备及存储介质-CN202310764110.4在审
发明人：丁万;黄东延;杨显杰;郑泽鸿;李鹏辉 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-06-26 - 公布日： 2023-10-20 - 主分类号： G10L25/57 文献下载
摘要：本申请公开了一种说话头视频合成方法、说话头视频合成装置、电子设备及存储介质。该方法包括：获取待合成的语音数据及观测数据，所述观测数据为除语音数据之外的通过观测所得的数据；对所述语音数据进行特征提取，得到所述语音数据所对应的语音特征，以及，对所述观测数据进行特征提取，得到所述观测数据所对应的非语音特征；对所述语音特征及第一非语音特征进行时序建模，得到低维表征，其中，所述第一非语音特征为：对时序变化敏感的非语音特征；基于所述低维表征及第二非语音特征进行视频合成，得到说话头视频，其中，所述第二非语音特征为：对时序变化不敏感的非语音特征。通过本申请方案，可以降低说话头视频合成时的复杂度，减少合成耗时。
话头视频合成方法装置电子设备存储介质

[发明专利]说话头视频合成方法、装置、电子设备及存储介质-CN202310769707.8在审
发明人：丁万;黄东延;杨显杰;郑泽鸿;李鹏辉 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-06-27 - 公布日： 2023-10-20 - 主分类号： H04N5/265 文献下载
摘要：本申请公开了一种说话头视频合成方法、说话头视频合成装置、电子设备及计算机可读存储介质。其中，该方法包括：获取待合成的语音数据及观测数据，所述观测数据为除语音数据之外的通过观测所得的数据；分别基于所述语音数据及所述观测数据进行编码，得到所述语音数据所对应的语音编码帧及所述观测数据所对应的观测编码帧；融合所述语音编码帧及所述观测编码帧，获得融合所得的潜在空间下的潜在表征；根据所述潜在表征合成说话头视频。通过本申请方案，可以得到拥有较高质量的说话头视频。
话头视频合成方法装置电子设备存储介质

[发明专利]伪装情绪识别方法、装置、电子设备及可读存储介质-CN202310751500.8在审
发明人：丁万;黄东延;杨显杰;郑泽鸿;李鹏辉 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-06-21 - 公布日： 2023-10-13 - 主分类号： G06V40/16 文献下载
摘要：本申请适用于终端技术领域，尤其涉及伪装情绪识别方法、装置、电子设备及可读存储介质。该方法中，电子设备获取目标用户对应的监测数据后，可以将监测数据分别输入生成模型和判别模型进行处理，得到第一情绪识别结果和第二情绪识别结果，并根据第一情绪识别结果和第二情绪识别结果确定目标用户对应的目标情绪识别结果。其中，生成模型是利用真实情绪数据训练得到的，判别模型是利用伪装情绪数据训练得到的。即利用容易获取的真实情绪数据训练生成模型，以通过生成模型学习预测数据属于真实情绪数据的概率。在进行伪装情绪识别时，可以融合生成模型和判别模型的情绪识别结果确定目标情绪识别结果，提高伪装情绪识别的准确性，提高用户体验。
伪装情绪识别方法装置电子设备可读存储介质

[发明专利]脸部情感识别方法、智能装置和计算机可读存储介质-CN201980003175.9有效
发明人：丁万;黄东延;李柏;邵池;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-23 - 公布日： 2023-10-13 - 主分类号： G06V40/16 文献下载
摘要：本发明实施例公开了一种脸部情感识别方法，包括：获取待识别人脸图像，对待识别人脸图像进行形态学特征提取，获取待识别人脸图像的形态学特征；将待识别人脸图像和待识别人脸图像的形态学特征输入预训练的情感识别神经网络，获取待识别人脸图像的脸部情感。本发明还提供了智能装置和计算机可读存储介质。本发明可以有效提升情感识别的准确率。
脸部情感识别方法智能装置计算机可读存储介质

[发明专利]一种韵律迁移方法、装置、可读存储介质及终端设备-CN202310732204.3在审
发明人：赵之源;黄东延 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-06-19 - 公布日： 2023-10-10 - 主分类号： G10L25/30 文献下载
摘要：本申请属于语音处理技术领域，尤其涉及一种韵律迁移方法、装置、计算机可读存储介质及终端设备。所述方法包括：获取目标韵律特征和原始声音频谱；使用预设的韵律迁移模型对所述目标韵律特征和所述原始声音频谱进行韵律迁移，得到具有所述目标韵律特征的目标声音频谱；其中，所述韵律迁移模型为在预训练的声学模型中加入韵律编码器得到的模型，所述韵律编码器用于对韵律特征进行编码。通过上述方法，可以在预训练的声学模型中加入韵律编码器，有效降低模型训练时占用的算力资源，提升了模型训练效率。
一种韵律迁移方法装置可读存储介质终端设备

[发明专利]一种多语言文本合成语音方法、装置、设备及存储介质-CN201980003170.6有效
发明人： 黄东延;盛乐园;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-23 - 公布日： 2023-10-10 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种多语言文本的语音合成方法、装置、设备及存储介质。所述方法包括：获取待合成多语言文本；将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；将所有所述编码规则对应的文本编码转换为联合文本编码；将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征；将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。本发明有利于多语言文本的处理，降低了部署难度，降低了部署成本。
一种语言文本合成语音方法装置设备存储介质

[发明专利]语音合成方法、装置、计算机设备和存储介质-CN201980003188.6有效
发明人： 黄东延;盛乐园;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-24 - 公布日： 2023-10-10 - 主分类号： G10L13/08 文献下载
摘要：本发明实施例公开了一种语音合成方法、装置、计算机设备和计算机可读存储介质，包括：获取待合成语音文本；根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；根据所述复数频谱得到所述待合成语音文本对应的合成语音。通过本发明能够高效、简单的完成语音合成。
语音合成方法装置计算机设备存储介质

[发明专利]说话头视频合成方法、装置、终端设备及可读存储介质-CN202210612090.4有效
发明人：丁万;黄东延;颜霖煌;杨志勇 -专利权人：深圳市优必选科技股份有限公司
申请日： 2022-05-31 - 公布日： 2023-09-22 - 主分类号： H04N21/81 文献下载
摘要：本申请适用于终端技术领域，尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法在获取目标文本和目标图像后，确定目标文本对应的目标音素序列；根据目标音素序列，获取目标文本对应的声学特征，并根据声学特征，得到目标文本对应的合成语音；根据目标音素序列，确定目标文本对应的第一目标嘴部动作序列，并根据声学特征，确定目标文本对应的第二目标嘴部动作序列；根据第一目标嘴部动作序列、第二目标嘴部动作序列和目标图像，得到目标用户对应的脸部动作视频；对合成语音和脸部动作视频进行同步处理，得到目标用户对应的说话头视频，以通过文本和文本对应的声学特征来预设嘴部动作，降低嘴部动作预测的复杂度。
话头视频合成方法装置终端设备可读存储介质

[发明专利]一种流式语音转换方法、装置、计算机设备及存储介质-CN201980003317.1有效
发明人：谢杰斌;王若童;黄东延;汤志超;刘洋;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-30 - 公布日： 2023-09-08 - 主分类号： G10L25/48 文献下载
摘要：本发明实施例公开了一种流式语音转换方法、装置、计算机设备及存储介质。所述方法包括：获取待转换语音数据；按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。本发明的流式语音转换方法缩短了响应时间，提高转换速度，在听觉上保证了输出语音的高保真效果。
一种语音转换方法装置计算机设备存储介质

[发明专利]语音识别方法、装置、终端设备及计算机可读存储介质-CN202310629147.6在审
发明人：杨显杰;黄东延 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-05-30 - 公布日： 2023-08-15 - 主分类号： G10L15/18 文献下载
摘要：本申请适用于终端技术领域，尤其涉及一种语音识别方法、装置、终端设备及计算机可读存储介质。该方法中，终端设备获取待识别语音后，可以利用端到端的语音识别模型对待识别语音进行语音识别，得到识别结果。其中，对于语音识别模型的每一次解码，终端设备可以根据N‑gram语言模型，确定候选解码结果对应的第一概率，以使得语音识别模型可以根据候选解码结果对应的第一概率确定下一次解码得到的候选解码结果。即本申请中，在通过端到端的语音识别模型进行语音识别时，可以根据N‑gram语言模型，确定候选解码结果对应的第一概率，使得解码结果符合语法结构，降低口音等发音不准确造成的解码错误，提高语音识别的准确率，提升用户体验。
语音识别方法装置终端设备计算机可读存储介质

[发明专利]语音转换方法、装置、计算机设备及计算机可读存储介质-CN201980003120.8有效
发明人：刘洋;李柏;丁万;黄东延;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-20 - 公布日： 2023-08-04 - 主分类号： G10L25/30 文献下载
摘要：本发明实施例公开了一种语音转换方法、装置、计算机设备及计算机可读存储介质。本发明中语音转换方法包括：获取待转换语音和原始转换模型，所述原始转换模型的格式为在线格式；将所述原始转换模型进行格式转换，得到离线格式的目标转换模型；对所述待转换语音进行特征提取，得到待转换特征；将所述待转换特征输入所述目标转换模型，得到所述目标转换模型输出的目标特征；根据所述目标转换模型输出的目标特征得到目标语音，所述目标语音的语音内容和所述待转换语音相同，所述目标语音的声音与所述待转换语音不同。该语音转换方法不仅可以在离线状态下高质量进行语音转换，而且运行速度快，可以实现语音的实时转换。
语音转换方法装置计算机设备可读存储介质

[发明专利]多音字预测方法及消歧方法、装置、设备及计算机可读存储介质-CN201980003196.0有效
发明人：白洛玉;李贤;张皓;黄东延;丁万;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-24 - 公布日： 2023-08-04 - 主分类号： G10L13/10 文献下载
摘要：一种多音字预测方法及消歧方法、装置、设备及计算机可读存储介质，该多音字预测方法包括如下步骤：获取待预测文本中的多音字文本、以及多音字文本在待预测文本中的上文文本和/或下文文本(S20)；构建多音字文本、上文文本、下文文本各自对应的一个或多个特征向量(S30)；将上文文本的特征向量、多音字文本的特征向量、下文文本的特征向量输入多音字预测模型获得多音字预测结果；多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；第一神经网络模块输入上文文本的特征向量并得到第一输出向量，第二神经网络模块输入多音字文本的特征向量并得到第二输出向量，第三神经网络模块输入下文文本的特征向量并得到第三输出向量；多音字预测结果包括多音字的每种读音的发音概率，通过将第一输出向量、第二输出向量和第三输出向量进行拼接来获得(S40)；基于多音字的每种读音的发音概率来确定多音字在待预测文本中的读音(S50)。有利于提高对多音字读音预测的准确度，有效避免分类干扰，编解码实现容易。
多音字预测方法装置设备计算机可读存储介质

[发明专利]情感识别方法、智能装置和计算机可读存储介质-CN201980003314.8有效
发明人：丁万;黄东延;李柏;邵池;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-30 - 公布日： 2023-07-18 - 主分类号： G06F40/30 文献下载
摘要：本发明实施例公开了一种情感识别方法，该情感识别方法包括：获取包括视频数据、音频数据和/或文本数据中的至少两个的待识别多模态数据组；提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或提取文本数据中的文本语义特征序列；将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列；将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列；将多模态语义特征序列输入预训练的情感识别神经网络，将情感识别神经网络的输出结果作为待识别数据组待识别多模态数据组对应的目标情感。本发明还公开了智能装置和计算机可读存储介质。本发明可以有效提升情感识别的准确性。
情感识别方法智能装置计算机可读存储介质

[发明专利]交互行为预测方法、智能装置和计算机可读存储介质-CN201980003374.X有效
发明人：丁万;黄东延;李柏;邵池;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-31 - 公布日： 2023-07-18 - 主分类号： G06F18/25 文献下载
摘要：本发明实施例公开交互行为预测方法。该交互行为预测方法包括：获取多轮对话数据，提取多轮对话数据中指定说话人的至少一段发言数据；提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列；将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络，获取分类神经网络的输出结果作为指定说话人的预测交互行为。本发明还公开了智能装置和计算机可读存储介质。本发明可以有效提升预测的准确性。
交互行为预测方法智能装置计算机可读存储介质

1
2
3
4
下一页»
尾页
共 47 条