[发明专利]直播间内容标签提取方法、存储介质、电子设备及系统有效
申请号: | 201810019246.1 | 申请日: | 2018-01-09 |
公开(公告)号: | CN108280059B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 王璐;张文明;陈少杰 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/247;G06F40/258;G06F40/216;H04N21/435;H04N21/4788 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430000 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直播 内容 标签 提取 方法 存储 介质 电子设备 系统 | ||
本发明公开了一种直播间内容标签提取方法、存储介质、电子设备及系统,涉及大数据推荐技术领域,本发明根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签,充分考虑内容标签的出现次数以及出现的直播间多少,标签多样性好,节约人力成本。
技术领域
本发明涉及大数据推荐技术领域,具体涉及一种直播间内容标签提取方法、存储介质、电子设备及系统。
背景技术
直播间是一个信息的载体,给直播间打上符合其内容和表现形式的标签可以对内含信息进行归纳,从而有利于直播平台内容的组织和编排。因此,如何采用有效的方法对直播间打上准确的内容标签是一个十分重要的问题。
直播间标签提取的方式一般有以下几种方式。一是采用直播网站人工定义的分区作为标签,这样做的缺陷是一个直播间只对应一个分区,标签不够丰富;且分区的含义较为宽泛,难以描述直播间的特点。二是采用人工的方式给直播间打标,但是由于直播间众多这样做人工成本太高。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种直播间内容标签提取方法、存储介质、电子设备及系统,解决传统方案人力成本较高、标签多样性较差的缺点。
为达到以上目的,本发明采取的技术方案是:本发明公开了一种直播间内容标签提取方法:
构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;
计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
在上述技术方案的基础上,计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:
其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词wr1,wr2,...,wrm,m表示wr中词的个数;
N(wri)是直播间M的弹幕文本中出现wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词w1,w2,...,wm,n表示wi中词的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
在上述技术方案的基础上,所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。
在上述技术方案的基础上,所述设定时间为一个月。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810019246.1/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法