[发明专利]话题分类评判方法及装置有效
申请号: | 201710656550.2 | 申请日: | 2017-08-03 |
公开(公告)号: | CN110147443B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 孙中秋 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 分类 评判 方法 装置 | ||
1.一种话题分类评判方法,其特征在于,包括:
获取每个话题的关键词;
对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;
统计所述任意两个话题的关键词总数;
根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值,其中,所述关键词总数为所述任意两个话题中不同关键词的总数;
根据所述重复度,确定所述任意两个话题的分类是否合理;
当所述任意两个话题的分类不合理时,根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表;所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;
根据所述元素值,计算每个节点的点度中心度值;
将点度中心度值大于预设阈值的节点确定为分歧节点,并确定所述分歧节点中的关键词为分歧关键词。
2.如权利要求1所述的方法,其特征在于,当所述任意两个话题的分类不合理时,在所述根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表之前,所述方法还包括:
分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词;
将所述任意两个话题间相同的高频关键词确定为重复高频关键词。
3.如权利要求2所述的方法,其特征在于,对于所述任意两个话题中的第i个话题,所述高频关键词通过如下方式确定:
确定所述第i个话题中关键词的词频;
计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;
将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2。
4.如权利要求2所述的方法,其特征在于,所述方法还包括:
统计所述重复高频关键词的数量N;
当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;
当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。
5.如权利要求1所述的方法,其特征在于,所述根据所述元素值,计算每个节点的点度中心度值包括:
统计节点j所在行的第一预设值的数目X(j)、所述节点j所在列的第一预设值的数目Y(j),以及,所述邻接矩阵表中第一预设值的总数Z;
利用公式H(j)=[X(j)+Y(j)-1]/Z,计算所述节点j的点度中心度值H(j);
其中,所述节点j为所述邻接矩阵表中任一节点。
6.如权利要求1所述的方法,其特征在于,还包括:
获取所述分歧关键词;
根据从属关系表,确定所述分歧关键词所属的至少两个相关话题,所述从属关系表用于表征重复关键词与话题间的关联关系;
计算所述分歧关键词与任一相关话题的关联强度,所述关联强度为所述分歧关键词在所述任一相关话题中的词频与所述任一相关话题中所有关键词的词频总数的比值;
将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题。
7.如权利要求6所述的方法,其特征在于,在所述根据从属关系表,确定所述分歧关键词所属的至少两个相关话题之前,所述方法还包括:
根据重复关键词与话题间的关联关系,建立所述从属关系表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710656550.2/1.html,转载请声明来源钻瓜专利网。