[发明专利]一种标签的标记方法、装置、服务器和存储介质有效
| 申请号: | 201811229982.6 | 申请日: | 2018-10-22 |
| 公开(公告)号: | CN109547863B | 公开(公告)日: | 2021-06-15 |
| 发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
| 主分类号: | H04N21/488 | 分类号: | H04N21/488;H04N21/8352;G06F16/35 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 430070 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 标签 标记 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种标签的标记方法、装置、服务器和存储介质。该方法包括:从直播类别中的直播间提取多个类型的文本信息;从所述文本信息中提取特征词;根据所述特征词与所述直播类别之间的关联性从所述特征词中筛选候选词;根据所述文本信息对应的类型从所述候选词中筛选目标词;将所述目标词设置为所述直播类别的标签信息。通过关联性初步筛选具有代表性的词,通过类型精确筛选重要的词,保证了该词作为标签信息的准确性,用户可以通过直播类别的标签信息多维度地识别直播类别包含的直播间的内容,进入合适的直播类别快速寻找喜欢的直播间。
技术领域
本发明实施例涉及自然语言处理的技术,尤其涉及一种标签的标记方法、装置、服务器和存储介质。
背景技术
随着网络科技的快速发展,直播间的数量快速增长,例如,直播游戏、直播个人才艺表演,等等。
为了方便管理直播间,直播平台通常对直播间划分不同的直播类别,用户通常基于直播分类的名称大概判断直播间的内容,从而进入相应的直播类别寻找喜欢的直播间进行观看。
但是,某些直播类别之间的界限并不明显,如果某个直播间同时存在与多个直播类别相同或相似的元素,则可能被划分至多个直播类别。
例如,针对娱乐相关的直播间,可能划分出“颜值”、“户外”、“美食”等直播类别,某个女明星在户外直播烧烤,皆有可能划分至这三个直播类别中。
因此,用户需要进入多个直播类别中寻找喜欢的直播间,遍历的直播间的数量较多,导致操作较为繁琐、效率较低。
发明内容
本发明实施例提供一种标签的标记方法、装置、服务器和存储介质,以解决基于直播分类的名称大概判断直播间的内容,从而选择相应的直播类别寻找直播间,导致操作较为繁琐、效率较低的问题。
第一方面,本发明实施例提供了一种标签的标记方法,包括:
从直播类别中的直播间提取多个类型的文本信息;
从所述文本信息中提取特征词;
根据所述特征词与所述直播类别之间的关联性从所述特征词中筛选候选词;
根据所述文本信息对应的类型从所述候选词中筛选目标词;
将所述目标词设置为所述直播类别的标签信息。
可选地,所述文本信息的类型包括如下至少一种:
所述直播间的标题、所述直播间的弹幕、子分类名称;
其中,所述子分类名称为所述直播间在所述直播类别下归属的直播子分类的名称。
可选地,所述根据所述特征词与所述直播类别之间的关联性从所述特征词中筛选候选词,包括:
基于所述特征词与所述直播类别之间的分布差异计算所述特征词的期望值,其中,所述期望值与所述分布差异正相关;
按照所述期望值从所述特征词中筛选候选词。
可选地,通过如下公式计算所述特征词的期望值
其中,N为所述文本信息的数量,A表示在直播类别v中出现特征词w的次数,B表示在非直播类别v中出现特征词w的次数,C表示在直播类别v中出现非特征词w的次数,D表示在非直播类别v中出现非特征词w的次数。
可选地,所述按照所述期望值从所述特征词中筛选候选词,包括:
从所述期望值中选择候选值,其中,所述候选值为m个值最大的期望值;
将所述候选值对应的特征词设置为候选词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811229982.6/2.html,转载请声明来源钻瓜专利网。





