[发明专利]弹幕类别识别方法、装置、设备及存储介质在审

申请号：	201811310439.9	申请日：	2018-11-06
公开（公告）号：	CN109766435A	公开（公告）日：	2019-05-17
发明（设计）人：	王非池	申请（专利权）人：	武汉斗鱼网络科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27;H04N21/488
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	430070 湖北省武汉市武汉东湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本特征逻辑回归模型存储介质类别识别行为特征用户行为特征大小关系情绪信息文本信息有效地统计子弹输出融合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种弹幕类别识别方法、装置、设备及存储介质，该方法包括：获取待处理弹幕的文本特征的特征值；获取用户行为特征的统计值；将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别，其中，所述弹幕类别包括正常弹幕和喷子弹幕。将文本特征的文本特征与用户的行为特征融合，结合逻辑回归模型来识别讽刺弹幕，有效地提取了文本信息中的情绪信息，从而显著地提高讽刺弹幕识别的敏感性。

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种弹幕类别识别方法、装置、设备及存储介质。

背景技术

弹幕是直播平台中用户进行交互的直接手段之一，高质量的弹幕文化容易让用户对直播平台留下深刻印象，增加平台的用户留存；而讽刺、带有攻击性的弹幕会对平台造成了许多负面的影响，比如影响主播的直播体验，减少主播的直播欲望。如果在直播过程中，可以对这些弹幕进行过滤，只保留对直播有正面影响的弹幕，直播平台的观看体验会有一定的提升。现有技术往往直接利用文本识别方法来识别讽刺弹幕，但识别效果较差，导致讽刺弹幕的过滤效果并不理想。

发明内容

本发明实施例提供一种弹幕类别识别方法、装置、设备及存储介质，以解决现有技术的弹幕类别识别方法的识别效果较差的技术问题，以提高弹幕类别的确定速度。

第一方面，本发明实施例提供了一种弹幕类别识别方法，包括：

获取待处理弹幕的文本特征的特征值；

获取用户行为特征的统计值；

将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别，其中，所述弹幕类别包括正常弹幕和喷子弹幕。

进一步，所述待处理弹幕的文本特征的特征值，包括：

所述待处理弹幕的预设标点符号特征的特征值、预设表情特征的特征值和预设负面词语特征的特征值，以及所述待处理弹幕的有效分词的TF-IDF值。

进一步，所述预设标点符号特征的特征值为：若待处理弹幕存在预设标点符号特征，则该预设标点符号特征的特征值为1，否则为0；

所述预设表情特征的特征值为：若待处理弹幕存在预设表情特征，则该预设表情特征的特征值为1，否则为0；

所述预设负面词语特征的特征值为：若待处理弹幕存在预设负面词语特征，则该预设词语特征的特征值为1，否则为0。

进一步，求取所述待处理弹幕的有效分词的TF-IDF值，包括：