“张旭龙”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果406个，建议您升级VIP下载更多相关专利

[发明专利]考勤记录方法、装置、计算机设备及存储介质-CN202111128834.7在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-26 - 公布日： 2021-12-31 - 主分类号： G06Q10/06 文献下载
摘要：本发明涉及目标检测技术领域，公开了一种考勤记录方法、装置、计算机设备及存储介质，该方法包括：接收考勤记录请求，考勤记录请求包括待识别图像和待识别图像对应的拍摄时间，根据选择性搜索算法，在待识别图像上生成目标候选区域集，基于卷积神经网络，提取特征数据，作为第一特征数据，基于分类算法，对第一特征数据进行分类，得到至少一个考勤对象特征，获取预设的基础对象集合中的每个基础对象特征，针对每个考勤对象特征，将考勤对象特征分别与每个基础对象特征进行匹配，将匹配成功的基础对象特征对应的基础对象，作为考勤对象特征对应的目标对象，基于拍摄时间和每个目标对象，生成每个目标对象对应的考勤记录，提高考勤记录效率。
考勤记录方法装置计算机设备存储介质

[发明专利]音色特征提取方法、装置、计算机设备及存储介质-CN202111130551.6在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-26 - 公布日： 2021-12-31 - 主分类号： G10L21/013 文献下载
摘要：本发明涉及人工智能领域，具体公开了一种音色特征提取方法、装置、计算机设备及存储介质，通过获取至少两个说话人的语音数据，并将语音数据输入预设的双向循环神经网络，以将语音数据转换成连续向量，并将连续向量量化成语音文本内容离散向量，计算连续向量与语音文本内容离散向量的差值，再根据差值计算预设的目标优化函数的损失值；当损失值未满足预设要求时，根据损失值调整双向循环神经网络的参数，并使用新的语音数据对已调整参数的双向循环神经网络进行训练；当损失值满足预设要求时，将差值确定为与说话人标签信息关联的说话人音色特征信息。本发明能够获得可更好地表征说话人的音色特征信息，从而能够很好地提升语音转换的效果。
音色特征提取方法装置计算机设备存储介质

[发明专利]基于语音识别的会议记录方法、装置、设备及存储介质-CN202111130557.3在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-26 - 公布日： 2021-12-31 - 主分类号： G10L21/0272 文献下载
摘要：本发明涉及语音信号处理技术领域，本发明公开了一种基于语音识别的会议记录方法、装置、设备及存储介质，所述方法包括：通过实时获取待识别音频数据；对待识别音频数据进行多通道分割处理，人声频率特征提取，以及人声分离，得到人声数据；通过说话人识别模型对人声数据进行语音识别，得到说话人信息；获取与说话人信息关联的历史记录文本，对人声数据进行基于上文语义的文本识别，得到文本结果；根据说话人信息和文本结果，确定出与待识别音频数据对应的会议记录内容。因此，本发明实现了通过多通道人声分离，以及语音识别，自动识别出说话人信息，并通过基于上文语义的文本识别，识别出文本结果，提高了会议记录输出的准确性、及时性和效率。
基于语音识别会议记录方法装置设备存储介质

[发明专利]基于自监督模型的歌声转换方法、设备及可读存储介质-CN202111134990.4在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-31 - 主分类号： G10L21/013 文献下载
摘要：本发明涉及一种人工智能技术领域，提供一种基于自监督模型的歌声转换方法、设备及可读存储介质，其中方法包括：通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；根据所述对抗损失函数、重构损失函数，构建最终损失函数；通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数收敛至预设范围，完成对所述自监督模型的训练；通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。本发明主要目的在于解决目前转换歌声容易跑调等问题。
基于监督模型歌声转换方法设备可读存储介质

[发明专利]基于人工智能的语音合成方法、装置、设备及存储介质-CN202111135799.1在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-31 - 主分类号： G10L13/08 文献下载
摘要：本发明涉及人工智能技术，揭露一种基于人工智能的语音合成方法，包括：获取预设语言的语言文本数据，并基于所述语言文本数据确定训练数据；将所述训练数据输入预设神经网络模型的编码器模块，获取与所述训练数据相对应的特征表示；将所述特征表示输入所述预设神经网络模型的解码器模块，获取与所述特征表示相对应的目标因素；基于所述目标因素迭代训练所述神经网络模型，直至所述神经网络模型的损失收敛在预设范围内，形成文本处理模型；基于所述文本处理模型获取与待处理文本数据对应的目标语言的声学特征；基于声学特征以及外设声码器，获取待处理文本数据的目标语言的合成语音。本发明可以提高文本转语音的效率，实现多语种的语音合成。
基于人工智能语音合成方法装置设备存储介质

[发明专利]基于深度学习的音频生成方法、装置、设备及存储介质-CN202111137130.6在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-31 - 主分类号： G10L13/08 文献下载
摘要：本申请适用于人工智能技术领域，提供了基于深度学习的音频生成方法、装置、设备及存储介质。包括：获取用户的带噪音频和待转换文本；通过音乐筛选器对带噪音频进行处理，得到去噪音频；将去噪音频输入GST模型中进行处理，得到去噪音频对应的质量嵌入向量；通过TTS模型对待转换文本和质量嵌入向量进行处理，得到待转换文本对应的目标音频。上述方案中，通过已训练的音乐筛选器对带噪音频进行处理，得到去噪音频；利用GST模型对去噪音频进行处理，得到质量嵌入向量；在通过TTS模型对待转换文本处理时，引入质量嵌入向量，用于对基于待转换文本生成的目标音频的质量进行把控，进而降低目标音频的噪声，提升了目标音频的质量。
基于深度学习音频生成方法装置设备存储介质

[发明专利]一种语音合成方法、装置、设备及介质-CN202111138183.X在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-31 - 主分类号： G10L13/08 文献下载
摘要：本申请涉及人工智能技术，提供一种语音合成方法、装置、设备及介质。方法包括：通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列；对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息；根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息；根据各个第一音素的扩展编码信息和上一帧的声学特征，预测当前帧的声学特征；根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息，可对音素序列和声学特征进行时间对齐，提高对齐准确度，进而提高语音合成的可靠性。
一种语音合成方法装置设备介质

[发明专利]基于人工智能的语音合成方法、装置、设备及存储介质-CN202111138984.6在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-31 - 主分类号： G10L13/033 文献下载
摘要：本申请涉及人工智能中的语音合成领域，提供了一种语音合成方法，包括：获取移动终端发送的语音数据，其中，所述语音数据为由所述移动终端的用户定制的目标对象的语音数据；根据所述语音数据生成语音样本数据集，获取用于将道路导航信息转化为语音数据的语音合成模型；根据所述语音样本数据集对所述语音合成模型进行迭代训练，得到用于合成与所述目标对象具有相同音色的语音数据的目标语音合成模型；将目标语音合成模型发送给移动终端。本申请实现了地图导航的语音多样化和个性化，使得用户可以定制化导航的播报声音，极大地提高了用户体验。本申请还涉及区块链技术，上述语音样本数据集可存储在区块链中。
基于人工智能语音合成方法装置设备存储介质

[发明专利]一种语音合成模型的训练方法、装置、设备及介质-CN202111142243.5在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-28 - 公布日： 2021-12-31 - 主分类号： G10L13/02 文献下载
摘要：本申请涉及人工智能技术，提供一种语音合成模型的训练方法、装置、设备及介质。其中的方法包括：获取训练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型，可提高语音合成模型的训练效率。
一种语音合成模型训练方法装置设备介质

[实用新型]一种轻量化长行程升降的移动升降平台-CN202121848204.2有效
发明人： 张旭龙;董芹鹏;李玉斌 -专利权人：睿尔曼智能科技（北京）有限公司
申请日： 2021-08-09 - 公布日： 2021-12-31 - 主分类号： B25J5/00 文献下载
摘要：本实用新型提供了一种轻量化长行程升降的移动升降平台，可用于机械臂控制。本实用新型的移动升降平台包括升降平台和移动平台；升降平台包括基座部分、滑块部分、立柱部分以及顶板部分；移动平台包括移动车体、升降控制部分和充电桩；在滑块部分设置与导轨滑块固定一起的安装法兰，用于连接机械臂；在升降控制部分设置钢丝绳缠绕线轮的结构，钢丝绳通过立柱部分的定滑轮后与安装法兰连接；通过控制钢丝绳运动带动安装法兰沿导轨上下移动。本实用新型整体体积小、操作简单、能够实现机械臂长行程的升降、可灵活布置，能够承担较大负载，并可进行自主充电。
一种量化行程升降移动平台

[发明专利]运动轨迹的获取方法、装置、设备及介质-CN202111136860.4在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-28 - 主分类号： G06T7/246 文献下载
摘要：本申请涉及人工智能技术，提供一种运动轨迹的获取方法、装置、设备及介质。其中的方法包括：获取3D视频数据，以及3D视频数据的第一标签信息，第一标签信息包括：3D视频数据中的主运动物体的第一物体标识，辅助运动物体的第二物体标识以及第一场景信息；对第一物体标识对应的主运动物体进行运动轨迹识别，得到主运动物体的运动轨迹；通过训练后的构图模型对第一场景信息、第二物体标识和主运动物体的运动轨迹进行处理，得到第二物体标识对应的辅助运动物体的运动轨迹，可基于预测得到的辅助运动物体的运动轨迹辅助拍摄，实现高效、便捷地制作3D视频数据，且提升观影者对场景特征变化的感知，促使观影者感受到更加多变和激烈的动态3D场景。
运动轨迹获取方法装置设备介质

[发明专利]模型训练及调用方法、装置、计算机设备、存储介质-CN202111137341.X在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-28 - 主分类号： G10L15/26 文献下载
摘要：本申请涉及人工智能领域，尤其涉及语音处理技术领域，提供一种模型训练及调用方法、装置、计算机设备、存储介质，包括：对样本语音数据进行编码，生成编码音频数据输入深度学习模型，将编码音频数据转化为全隐式文本数据，生成全隐式文本数据对应的摘要文本；对摘要文本进行重构，生成重构文本数据，将重构文本数据转化为音频数据，生成重构音频数据；基于重构文本数据和重构音频数据对深度学习模型进行参数调整，并返回执行对样本语音数据进行编码，生成编码音频数据的步骤，直至深度学习模型收敛，获得训练好的深度学习模型，通过该模型生成语音对应的摘要文本的精准性高。本申请还涉及区块链技术，样本语音数据可以存储在区块链节点中。
模型训练调用方法装置计算机设备存储介质

[发明专利]基于图像分割的心脏图像处理方法、装置、设备及介质-CN202111138992.0在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2021-12-28 - 主分类号： G06T7/11 文献下载
摘要：本申请涉及医疗领域以及人工智能中的图像分割领域，提供了一种心脏图像处理方法，包括：获取第一样本数据集和第二样本数据集；对所述第一样本数据集进行扩充，得到第三样本数据集，并获取待训练的心脏分割模型，其中，心脏分割模型包括学生网络和教师网络；根据第二样本数据集和第三样本数据集，对心脏分割模型进行迭代训练，得到目标心脏分割模型；获取待分割的目标心脏图像，并将目标心脏图像输入目标心脏分割模型进行图像分割，得到目标心脏分割图像。本申请减少心脏分割模型的数据标注成本，提高心脏分割模型的准确性。本申请还涉及区块链技术，上述目标心脏分割模型可存储在区块链中。
基于图像分割心脏处理方法装置设备介质

[发明专利]文本转语音方法、装置、计算机设备及存储介质-CN202111130534.2在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-26 - 公布日： 2021-12-28 - 主分类号： G10L13/08 文献下载
摘要：本发明涉及语音合成领域，尤其涉及一种文本转语音方法、装置、计算机设备及存储介质。其方法包括：从音色数据库中获取音色信息，并从客户端获取目标文本，对目标文本和音色信息进行预处理，得到第一复合信息；将第一复合信息输入注意力层，通过注意力层中的注意力网络模型对第一复合信息的复合特征进行提取，得到注意力层输出的第二复合信息；将第二复合信息输入音色分类器，通过音色分类器对第二复合信息进行音色识别，判断第二复合信息是否为目标音；若第二复合信息为目标音，则通过语音生成器对第二复合信息进行解码，生成与目标文本对应的语音信息。本发明可以使生成的语音信息更加接近目标音，可提高语音合成的准确性。
文本语音方法装置计算机设备存储介质

[发明专利]基于聚类的说话人识别方法、装置、设备及存储介质-CN202111130681.X在审
发明人： 张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-26 - 公布日： 2021-12-28 - 主分类号： G10L17/18 文献下载
摘要：本发明公开了一种基于聚类的说话人识别方法、装置、设备及存储介质，应用于人工智能技术领域。本发明提供的方法包括：对待确定音频进行分割处理，得到至少两个目标语音段；提取每个所述目标语音段的梅尔倒谱系数，将所述梅尔倒谱系数输入到时延神经网络进行特征提取，得到每个所述目标语音段的声学特征；将每个所述声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个所述目标语音段的说话人嵌入；通过聚类算法，对每个所述说话人嵌入进行聚类，得到聚类结果，并根据所述聚类结果确定说话人身份。本发明用于提高针对多个说话人进行识别的效率。
基于说话识别方法装置设备存储介质