[发明专利]基于爬虫的贴音乐标签方法及系统有效
申请号: | 201610044080.X | 申请日: | 2016-01-22 |
公开(公告)号: | CN105718575B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 郭泽豪;王振宇;戴瑾如 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/635 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于爬虫的贴音乐标签的方法及系统,本发明在爬虫爬取多个音乐网站的音乐标签记录的基础上,通过对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式;另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签;利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签;同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,进行标签融合。 | ||
搜索关键词: | 基于 爬虫 音乐 标签 方法 系统 | ||
【主权项】:
1.一种基于爬虫的贴音乐标签的方法,其特征在于,所述方法包括以下步骤:S1、针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;S2、通过歌单标签可信值计算,将歌单标签转化为歌曲标签;其中,所述步骤S2通过歌单标签可信值计算,将歌单标签转化为歌曲标签具体包括:S21、针对每一小类标签,统计其在全部歌单标签记录中的出现频次;S22、针对每一歌曲,统计其包含的小类标签以及对应的频次;S23、针对每一歌曲,算出其每个歌单标签的可信值;所述步骤S23中某一歌曲关于歌单标签的可信值的计算过程具体为:设歌单标签记录包含n个小类标签,小类标签ti i=1,2,3,...,n在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi‑Fmin)/(Fmax‑Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值;S24、筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;S25、判断是否还有其他歌曲,若是执行步骤S23,否则结束;S3、利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;S4、以音乐标签体系的标签为基准,构建标签融合规则,对曲库音乐记录进行标签融合,其中,所述融合规则如下:统计爬虫音乐标签记录中的全部小类标签的频次,剔除频次低的小众标签,根据筛选后的小类标签,通过人工的方式构建音乐标签体系,对表述不同但是意义相同的标签构建映射规则,生成音乐标签体系的小类标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610044080.X/,转载请声明来源钻瓜专利网。