[发明专利]话题分类评判方法及装置有效
申请号: | 201710656550.2 | 申请日: | 2017-08-03 |
公开(公告)号: | CN110147443B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 孙中秋 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 分类 评判 方法 装置 | ||
本发明提供了一种话题分类评判方法及装置,获取每个话题的关键词,对于任意两个话题,确定重复关键词的数量,根据所述重复关键词的数量,确定所述任意两个话题之间的重复度,根据所述重复度,确定所述任意两个话题的分类是否合理。本发明话题分类评判方法及装置,实现了对话题分类合理性的有效评判,为提高了话题分类合理性提供了依据。
技术领域
本发明涉及信息处理领域,更具体的说,涉及话题分类评判方法及装置。
背景技术
随着互联网技术的发展,诸如博客、微博、论坛、新闻评论以及各类网站的投诉与建议板块等各种话题互动平台应运而生,用户可以针对各类话题发布自己的观点与评论。
现有话题互动平台上的话题种类,通常是根据具体业务需要直接进行划分的,然而不同的具体业务之间可能并没有明确的界限划分,例如“住房规划”与“民生政策”这两个话题,由于目前老百姓的住房问题与民生问题紧密相连,所以这两项内容之间并没有明确的界限划分,从而导致“住房规划”与“民生政策”这两个话题的划分较为模糊,缺乏合理性,当用户想要对住房拆迁问题进行关注或留言时,并不能快速准确地定位到所要关注或留言的话题类别到底是“住房规划”还是“民生政策”。也即,目前并没有一种切实有效的技术手段能够对话题分类的合理性进行评判,以提高话题分类的合理性。
因此,目前迫切需要一种能够提高话题分类合理性的技术方案。
发明内容
有鉴于此,本发明提供了一种话题分类评判方法及装置,以解决目前无法有效评判话题分类合理性的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种话题分类评判方法,包括:
获取每个话题的关键词;
对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;
根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;
根据所述重复度,确定所述任意两个话题的分类是否合理。
优选的,所述根据所述重复关键词的数量,确定所述任意两个话题之间的重复度,包括:
统计所述任意两个话题的关键词总数;
根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值。
优选的,当所述任意两个话题的分类不合理时,所述方法还包括:
分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词;
将所述任意两个话题间相同的高频关键词确定为重复高频关键词。
优选的,对于所述任意两个话题中的第i个话题,所述高频关键词通过如下方式确定:
确定所述第i个话题中关键词的词频;
计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;
将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2。优选的,所述方法还包括:
统计所述重复高频关键词的数量N;
当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;
当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。
优选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710656550.2/2.html,转载请声明来源钻瓜专利网。