“任延珍”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果36个，建议您升级VIP下载更多相关专利

[发明专利]一种基于分组特征校准的声音事件检测方法及系统-CN202310672434.5在审
发明人： 任延珍;刘晨雨;刘武洋 -专利权人：武汉大学
申请日： 2023-06-07 - 公布日： 2023-09-19 - 主分类号： G10L15/16 文献下载
摘要：本发明提供一种基于分组特征校准的声音事件检测方法及系统，包括：获取待检测声音事件的音频特征数据；将音频特征数据输入时频学习网络，通过卷积神经网络获取时频谱图，基于多个维度对时频谱图的中间表征进行分组特征学习得到分组强化特征，对分组强化特征进行任务感知激活得到自适应特征；将自适应特征输入上下文建模网络，获取音频信号时域相关性特征，对音频信号时域相关性特征进行分类，得到声音事件类别检测结果。本发明根据声音事件检测任务中不同类型音频的时频特性引入分组特征校准模块，增强了声音事件检测网络对各类音频的特征表示能力，参数量小且通用性强，以较小的计算代价引入现有的主流声音事件检测模型中并提升其性能。
一种基于分组特征校准声音事件检测方法系统

[发明专利]一种语音转换说话人溯源方法及装置-CN202310236391.6在审
发明人： 任延珍;朱洪承;翟黎明;孙宗锟;沈茹冰;王丽娜 -专利权人：武汉大学
申请日： 2023-03-10 - 公布日： 2023-08-29 - 主分类号： G10L21/013 文献下载
摘要：本发明公开了一种语音转换说话人溯源方法及装置。针对语音转换技术在实际应用过程中滥用时难以主动追溯源说话人身份的问题，本发明设计了一个基于异步VAE‑Glow的追溯方法，既能在语音转换过程中并行隐藏源说话人身份，又能从压缩的转换语音中准确地恢复隐藏的源说话人身份甚至原始语音。本方法可与任意的语音转换框架集成并用于各类社交媒体和语音通话应用中，在不影响转换语音质量的前提下实现说话人身份的隐藏和溯源，在面临大范围比特率(16～128kbps)的主流音频和语音压缩标准(如AAC、MP3、Opus和SILK)时仅凭0.74s的语音就能实现接近100％的溯源准确率。
一种语音转换说话溯源方法装置

[发明专利]一种基于光照特征的深度伪造人脸鉴别方法-CN202010766667.8有效
发明人：王中元;梁金碧;邹勤;涂卫平;任延珍 -专利权人：武汉大学
申请日： 2020-08-03 - 公布日： 2023-08-18 - 主分类号： G06V40/16 文献下载
摘要：本发明公开了一种基于光照特征的深度伪造人脸鉴别方法。首先，利用人脸检测提取出视频关键帧中的人脸，裁剪出人脸部分图像和环境部分图像；然后，利用本征图像分解提取视频帧中人脸部分和环境部分的光照特征，使用SfSnet导出帧中人脸部分图像的照射图，使用U‑net导出帧中环境部分图像的照射图；其次，利用两部分照射图衡量一帧图像中人脸和环境光照信息的相似性；最后，将光照信息的相似性输入支持向量机，对伪造视频和真实视频进行分类，输出鉴别结果。本发明利用视频本身光照特征的一致性，而不需要与参考视频进行对比检测，因而具有较强的鲁棒性和对未知检测目标的泛化能力。
一种基于光照特征深度伪造鉴别方法

[发明专利]一种双通道俯角人脸融合校正GAN网络及人脸融合校正方法-CN202010075862.6有效
发明人：王中元;黄宝金;王南西;吴浩;任延珍;涂卫平 -专利权人：武汉大学
申请日： 2020-01-22 - 公布日： 2023-08-04 - 主分类号： G06V10/24 文献下载
摘要：本发明公开了一种双通道俯角人脸融合校正GAN网络及人脸融合校正方法，本发明的GAN网络利用低分辨率正脸的全局结构和高分辨率俯角脸的局部纹理重建清晰的正面人脸，提高人脸识别系统的精度。建立的GAN网络包括超分辨率重建网络、姿态校正网络、头部姿态估计模块、人脸配准模块、人脸综合模块等主要功能模块。首先通过超分辨率重建网络将低分辨率正脸提升到高分辨率俯角脸同等分辨率，接着通过姿态校正网络完成高分辨率人脸的俯视姿态校正，然后使用光流配准方法实现二者的像素级对齐，最后将估计出的头部俯视角转换为融合权重，进行角度自适应的人脸合成。本发明能够精确地重建清晰的正面人脸，为监控视频人脸识别提供了新的思路。
一种双通道俯角融合校正 gan 网络方法

[发明专利]基于注意力机制的声音事件样本混合方法及装置-CN202211573883.6在审
发明人： 任延珍;刘武洋;王靖茹;涂卫平;杨玉红 -专利权人：武汉大学
申请日： 2022-12-08 - 公布日： 2023-04-25 - 主分类号： G10L25/51 文献下载
摘要：本发明公开了一种基于注意力机制的声音事件样本混合方法及装置，在音频分类任务上，样本混合是一种有效的数据增强方法。原有的样本混合方案直接混合两个随机样本的波形，这不仅忽略了声音事件的时间分布，而且还可能干扰另一个样本中的原始声音事件。本文提出了基于注意力机制的样本混合方案，它只选择那些含有声音事件的片段进行混合，而不是简单地混合整个样本。该方案利用预先训练好的音频分类模型的注意力图，过滤出频谱图上对分类有用的部分，然后选择区域进行混合。该方案能够显著提升音频分类的准确率(+1.9mAP)，尤其能够将短事件(0.1s至2s)的分类准确率平均提高6.8％，同时保持对长事件的分类准确率。
基于注意力机制声音事件样本混合方法装置

[发明专利]基于单专家标注数据的自动睡眠分期方法及装置-CN202211446595.4在审
发明人： 任延珍;栾志恒;彭荔;陈雄;杨修平;涂卫平;杨玉红 -专利权人：武汉大学
申请日： 2022-11-18 - 公布日： 2023-03-07 - 主分类号： G16H50/20 文献下载
摘要：本发明公开了一种基于单专家标注数据的自动睡眠分期方法及装置，针对自动睡眠分期任务中单专家标注数据质量不高、多专家联合标注所需成本较高的问题，本发明使用两个结构一致但初始化不同的网络进行联合训练，通过预测一致性损失防止模型过拟合到错误标注标签上，并通过模型间对比学习在不依赖可能带有噪声的标签的情况下增强对特征表示的探索。实验结果表明，该算法可以有效提高在单专家标注数据集上训练的多种自动睡眠分期模型的性能。
基于专家标注数据自动睡眠分期方法装置

[发明专利]一种基于掩蔽效应的AAC安全隐写算法及系统-CN202211219447.9在审
发明人： 任延珍;杨扬;王丽娜 -专利权人：武汉大学
申请日： 2022-09-30 - 公布日： 2023-01-17 - 主分类号： G10L19/02 文献下载
摘要：本发明公开了一种基于掩蔽效应的AAC安全隐写算法及系统。人耳听觉掩蔽效应会导致一些声音强度低的音频信号被强度高的信号掩蔽，存在隐藏秘密信息的空间。因此，本发明分析了AAC编码中MDCT系数的量化过程，将其中被掩蔽的音频信号记录为可修改的位置，结合STC自适应隐写框架实现秘密信息的嵌入。实验结果表明，该算法最大嵌入容量可以达到13.61kbps，同时可以保证语音的听觉隐蔽性，并且具有较好的安全性。
一种基于掩蔽效应 aac 安全算法系统

[发明专利]一种基于主体滤波的伪造语音检测算法及系统-CN202211217858.4在审
发明人： 任延珍;刘轶文;王丽娜 -专利权人：武汉大学
申请日： 2022-09-30 - 公布日： 2023-01-13 - 主分类号： G10L25/27 文献下载
摘要：现有的伪造语音检测方法在重编码和噪声失配场景下的鲁棒性较弱，为了提升现有方法的鲁棒性，伪造语音检测研究工作提出了对训练数据集进行数据增广的策略。但是，数据增广策略会增加训练数据量，降低模型训练效率，且只能针对已知编码算法和噪声差异场景。本发明本发明涉及伪造语音检测领域，特别涉及面向重编码和噪声干扰场景下的伪造语音检测领域，具体涉及一种基于主体滤波的伪造语音检测算法及系统，主要设计了一种基于人耳听觉掩蔽效应和信噪能量比关系设计的主体信号滤波模块，可以剔除语谱特征中引起分布差异的部分，同时不会增加训练数据量，能够在未知编码算法和噪声差异场景下提升模型的鲁棒性，具有良好的通用性。
一种基于主体滤波伪造语音检测算法系统

[发明专利]一种基于视觉Transformer的自动睡眠分期方法-CN202210965248.6在审
发明人： 任延珍;彭荔 -专利权人：武汉大学
申请日： 2022-08-12 - 公布日： 2022-11-22 - 主分类号： G06K9/00 文献下载
摘要：本发明公开一种基于视觉Transformer的自动睡眠分期方法。本发明将原始PSG信号通过滑窗处理得到PSG信号序列；将PSG信号序列通过数据增强得到增强信号样本；通过视觉Transformer帧级编码器、双向GRU序列级编码器、softmax层级联构建睡眠分期网络，将每组PSG信号样本输入睡眠分期网络,预测PSG信号样本的睡眠阶段，通过跨模态迁移学习初始化网络，结合PSG信号样本的真实睡眠阶段构建损失函数，使用ADAM优化器训练得到优化后睡眠分期网络；实时采集PSG信号，将PSG信号样本通过优化后睡眠分期网络，预测睡眠阶段。本发明根据PSG信号的噪声和伪迹设计数据增强，提高网络对PSG信号噪声和伪迹的鲁棒性；引入基于视觉Transformer的编码器，提高网络特征表示能力；通过迁移学习，减轻对大量PSG数据的依赖。
一种基于视觉 transformer 自动睡眠分期方法

[发明专利]一种用于声音事件检测的声音编码器的生成方法-CN202110434588.1有效
发明人： 任延珍;刘武洋;何佳庆;王丽娜 -专利权人：武汉大学
申请日： 2021-04-22 - 公布日： 2022-05-13 - 主分类号： G10L19/00 文献下载
摘要：本发明提供了一种用于声音事件检测的声音编码器的生成方法，包括：对第一训练集中的无标签的预训练音频信号进行失真处理，得到失真训练信号；将失真训练信号输入初始声音编码器，得到第一特征向量；基于预训练音频信号和感知机集合，确定第二特征向量；基于第一特征向量和第二特征向量修改初始声音编码器的参数，得到候选声音编码器；通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练，得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器，再通过有标签的微调音频信号对候选声音编码器进行微调，减少训练过程中对强标签样本的依赖，通过失真处理提升了声音编码器的鲁棒性。
一种用于声音事件检测编码器生成方法

[发明专利]基于对抗学习的伪造人脸视频检测方法-CN202110824499.8有效
发明人：邹勤;曹申豪;涂卫平;任延珍;王中元 -专利权人：武汉大学
申请日： 2021-07-21 - 公布日： 2021-11-02 - 主分类号： G06K9/00 文献下载
摘要：本发明公开了一种基于对抗学习的伪造人脸视频检测方法。本方法采用深度卷积神经网络和递归神经网络相结合的方式，构建了一种端到端的双分支深度学习模型，使用对抗学习和度量学习的训练策略，提取具有压缩鲁棒性的特征。本方法采用对抗学习策略，将压缩视频和原始视频映射到一个具有压缩鲁棒性的编码空间中，同时采用度量学习策略，缩小成对视频的编码距离，从而提取视频帧内和帧间具有压缩鲁棒性的伪造特征。本发明对输入的压缩人脸视频进行真伪检测，输出视频的真假标签，有效克服了压缩场景下伪造人脸视频中伪造信息衰减难以检测的难题，提高了检测的准确率。
基于对抗学习伪造视频检测方法

[发明专利]一种面向JPEG图像的隐写分析盲检测的方法-CN201710742641.8有效
发明人：王丽娜;王汉森;翟黎明;徐一波;任延珍 -专利权人：武汉大学
申请日： 2017-08-25 - 公布日： 2021-08-03 - 主分类号： G06T1/00 文献下载
摘要：本发明公开一种面向JPEG图像的隐写分析盲检测的方法。该方法针对在对JPEG图像进行隐写的过程中对DCT系数的修改的问题，结合了目前广泛应用的相邻联合密度特征提取算法和双边大距离超球体分类器进行了通用检测模型的训练，由此来对通过未知隐写算法生成的载密图像进行检测。本发明的优势在于：目前的通用盲检测模型大多是使用单类分类器进行训练的，检测率较低，而使用二类分类器进行训练的模型很难检测出未知算法，而本方法使用二类超球体分类器可以比较准确地检测出未知算法，同时比起单类分类器的检测率高。
一种面向 jpeg 图像分析检测方法

[发明专利]一种空域图像隐写分析可信度评估方法-CN201810037216.3有效
发明人：王丽娜;徐一波;翟黎明;任延珍 -专利权人：武汉大学
申请日： 2018-01-15 - 公布日： 2021-07-20 - 主分类号： G06T1/00 文献下载
摘要：本发明公开了一种空域图像隐写分析可信度评估方法，首先对待测试图像进行自适应残差计算，然后对获得的残差进行取整和截断操作并统计其水平，垂直，主对角和副对角四个方向上的共生概率矩阵。通过对四个共生概率矩阵的相加求平均，进一步利用此均值矩阵计算该图像被隐写检测后的可信度评估数值。本发明可以使得隐写分析者区分检测结果中哪些样本具有更高或更低的确信度，从而提升隐写分析的现实应用价值。
一种空域图像分析可信度评估方法

[发明专利]一种基于最小失真代价的SILK基音域自适应隐写方法-CN201910347884.0有效
发明人： 任延珍;杨瀚溢;王丽娜 -专利权人：武汉大学
申请日： 2019-04-28 - 公布日： 2021-04-16 - 主分类号： G10L19/018 文献下载
摘要：本发明公开了一种基于最小失真代价的SILK基音域自适应隐写方法，本方法基于SILK语音编码压缩参数中基音周期的预测不准确特性，提出基音周期参数域的隐写算法；基于STC自适应隐写编码框架，以统计安全性和听觉隐蔽性为目标，设计了基于基音周期编码参数与统计分布特性的失真函数，实现了基于最小失真代价的SILK基音域自适应隐写算法。本方法的优势在于首次实现了SILK语音编码载体上的隐写技术，有着良好的隐蔽性和安全性。
一种基于最小失真代价 silk 基音自适应方法

[发明专利]一种基于清音基音延迟抖动特性的AMR隐写方法-CN201710797584.3有效
发明人： 任延珍;杨婧;王丽娜 -专利权人：武汉大学
申请日： 2017-09-06 - 公布日： 2021-02-19 - 主分类号： G10L19/018 文献下载
摘要：本发明公开一种基于清音基音延迟抖动特性的AMR隐写方法。本方法针对现有针对基音延迟的隐写分析算法利用语音浊音段基音延迟的短时相对稳定性对现有隐写算法实现检测的现状，为保证隐秘通信，在自适应码本搜索过程中，不破坏浊音基音延迟短时稳定性，对可嵌入的位置进行判定，设计合适的嵌入规则，自适应的选择语音可嵌入位置进行嵌入。本算法的优势在于隐蔽性好且抗隐写分析能力强。
一种基于清音基音延迟抖动特性 amr 方法

1
2
3
下一页»
尾页
共 36 条