[发明专利]检测模型训练方法、盗版歌曲检测方法以及相关设备在审
| 申请号: | 202211413235.4 | 申请日: | 2022-11-11 |
| 公开(公告)号: | CN115757859A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 何礼 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
| 主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/683;G06F16/68;G06F18/214 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 陈彦如 |
| 地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 检测 模型 训练 方法 盗版 歌曲 以及 相关 设备 | ||
本申请实施例公开了检测模型训练方法、盗版歌曲检测方法以及相关设备,用于提升盗版歌曲检测效率。本申请实施例方法包括:获取预先标记有歌曲标签的多个预处理歌曲;以每个预处理歌曲的第一歌曲信息为检索关键词,获得与每个第一歌曲信息对应的检索结果;从训练歌曲对应的检索结果中提取对应的检索结果摘要;轮流以每个预处理歌曲为训练歌曲,将训练歌曲的第一歌曲信息以及训练歌曲对应的检索结果摘要输入预训练模型,以输出训练歌曲的正版置信度和盗版置信度;根据正版置信度、盗版置信度、训练歌曲的歌曲标签以及预设的损失函数,计算损失值;基于损失值调整预训练模型的模型参数,直至损失值满足预设收敛条件时得到目标检测模型。
技术领域
本申请实施例涉及音频处理领域,尤其涉及检测模型训练方法、盗版歌曲检测方法以及相关设备。
背景技术
近年来盗版歌曲不断新增,对歌曲曲库造成污染,影响到歌曲推荐以及歌曲检索等各个方面。
现在,主要采用人工审核的方式,对原版歌曲和盗版歌曲进行鉴别。
在实现本发明的过程中,发明人发现现有技术至少存在审核效率低下的问题。由人工进行歌曲审核,无法应对当前海量的存量歌曲以及每日大量的新增歌曲。
发明内容
本申请实施例提供了检测模型训练方法、盗版歌曲检测方法以及相关设备,用于提升盗版歌曲检测效率。
本申请实施例第一方面提供一种检测模型训练方法,包括:
获取预先标记有歌曲标签的多个预处理歌曲,所述歌曲标签用于标识预处理歌曲为盗版歌曲或正版歌曲;
以每个所述预处理歌曲的第一歌曲信息为检索关键词,获得与每个所述第一歌曲信息对应的检索结果;
从所述训练歌曲对应的检索结果中提取对应的检索结果摘要;
轮流以每个所述预处理歌曲为训练歌曲,将所述训练歌曲的第一歌曲信息以及所述训练歌曲对应的检索结果摘要输入预训练模型,以输出所述训练歌曲的正版置信度和盗版置信度;
根据所述正版置信度、所述盗版置信度、所述训练歌曲的歌曲标签以及预设的损失函数,计算损失值;
基于所述损失值调整所述预训练模型的模型参数,直至所述损失值满足预设收敛条件时得到目标检测模型。
在一种具体实现方式中,所述方法还包括:
基于每个存量歌曲的音频指纹对曲库中的多个存量歌曲进行聚类,以得到至少一个聚类组;
将每个聚类组内热度最高歌曲的歌手信息,确定为所述每个聚类组对应的目标歌手信息,所述热度最高歌曲为聚类组内歌曲热度最高的存量歌曲;
判断所述每个聚类组内各所述存量歌曲的歌手信息,是否为所述每个聚类组对应的目标歌手信息;
若是,则标记所述存量歌曲为正版歌曲,若否,则标记所述存量歌曲为盗版歌曲;
基于各所述存量歌曲的第二歌曲信息以及预设评分公式,计算各所述存量歌曲的歌曲评分,所述第二歌曲信息与所述第一歌曲信息包含的歌曲信息类型不同;
将所述每个聚类组内歌曲评分满足预设保留条件的存量歌曲,确定为所述预处理歌曲。
在一种具体实现方式中,所述将所述每个聚类组内歌曲评分满足预设保留条件的存量歌曲,确定为所述预处理歌曲,包括:
确定所述每个聚类组内歌曲评分大于预设保留分数的存量歌曲为所述预处理歌曲;
或者,
确定所述每个聚类组内歌曲评分排序,不大于预设保留个数的存量歌曲为所述预处理歌曲,其中每个聚类组内的歌曲评分排序包括:正版歌曲排序以及盗版歌曲排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211413235.4/2.html,转载请声明来源钻瓜专利网。





