[发明专利]弹幕类别识别方法、装置、设备及存储介质在审
申请号: | 201811310439.9 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109766435A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王非池 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;H04N21/488 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 430070 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本特征 逻辑回归模型 存储介质 类别识别 行为特征 用户行为特征 大小关系 情绪信息 文本信息 有效地 统计 子弹 输出 融合 | ||
本发明实施例公开了一种弹幕类别识别方法、装置、设备及存储介质,该方法包括:获取待处理弹幕的文本特征的特征值;获取用户行为特征的统计值;将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型,并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别,其中,所述弹幕类别包括正常弹幕和喷子弹幕。将文本特征的文本特征与用户的行为特征融合,结合逻辑回归模型来识别讽刺弹幕,有效地提取了文本信息中的情绪信息,从而显著地提高讽刺弹幕识别的敏感性。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种弹幕类别识别方法、装置、设备及存储介质。
背景技术
弹幕是直播平台中用户进行交互的直接手段之一,高质量的弹幕文化容易让用户对直播平台留下深刻印象,增加平台的用户留存;而讽刺、带有攻击性的弹幕会对平台造成了许多负面的影响,比如影响主播的直播体验,减少主播的直播欲望。如果在直播过程中,可以对这些弹幕进行过滤,只保留对直播有正面影响的弹幕,直播平台的观看体验会有一定的提升。现有技术往往直接利用文本识别方法来识别讽刺弹幕,但识别效果较差,导致讽刺弹幕的过滤效果并不理想。
发明内容
本发明实施例提供一种弹幕类别识别方法、装置、设备及存储介质,以解决现有技术的弹幕类别识别方法的识别效果较差的技术问题,以提高弹幕类别的确定速度。
第一方面,本发明实施例提供了一种弹幕类别识别方法,包括:
获取待处理弹幕的文本特征的特征值;
获取用户行为特征的统计值;
将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型,并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别,其中,所述弹幕类别包括正常弹幕和喷子弹幕。
进一步,所述待处理弹幕的文本特征的特征值,包括:
所述待处理弹幕的预设标点符号特征的特征值、预设表情特征的特征值和预设负面词语特征的特征值,以及所述待处理弹幕的有效分词的TF-IDF值。
进一步,所述预设标点符号特征的特征值为:若待处理弹幕存在预设标点符号特征,则该预设标点符号特征的特征值为1,否则为0;
所述预设表情特征的特征值为:若待处理弹幕存在预设表情特征,则该预设表情特征的特征值为1,否则为0;
所述预设负面词语特征的特征值为:若待处理弹幕存在预设负面词语特征,则该预设词语特征的特征值为1,否则为0。
进一步,求取所述待处理弹幕的有效分词的TF-IDF值,包括:
获取每个有效分词在所述待处理弹幕中的词频以作为TF值,具体为:其中ni,j表示有效分词i在待处理弹幕j中出现的次数,∑knk,j表示待处理弹幕j的有效分词数量;
获取每个有效分词的逆文本频率指数,即IDF值,具体为:其中,|D|表示样本集的弹幕总条数,|{j:ti∈dj}|表示样本集中包含有效分词i的弹幕条数;
求取所述TF值与所述IDF值的乘积以作为TF-IDF值,具体为: TF-IDFi,j=tfi,j*idfi。
进一步,所述文本特征包括预设标点符号特征、预设表情特征和预设负面词语特征,相应的,提取待处理弹幕的文本特征,包括:
基于正则化匹配法提取所述待处理弹幕的预设标点符号特征、预设表情特征和预设负面词语特征。
进一步,所述行为特征的统计值包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811310439.9/2.html,转载请声明来源钻瓜专利网。