[发明专利]一种关键词提取方法和装置有效
申请号: | 201611086114.8 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106776546B | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 郭红艳;李博;张淑燕 | 申请(专利权)人: | 努比亚技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 深圳协成知识产权代理事务所(普通合伙) 44458 | 代理人: | 章小燕 |
地址: | 518000 广东省深圳市南山区高新区北环大道9018*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种关键词提取方法及装置,所述方法包括:根据预设规则获取待处理的文本的分词集合,所述分词集合中至少包括第一至第N分词;确定所述分词集合中第i分词的网页级别PR值;确定所述分词集合中两两分词之间的编码距离;获取第一编码距离集合,所述第一编码距离集合包括第i分词与除所述第i分词外其他分词之间的编码距离;根据第一编码距离集合和所述第i分词对应的第i阈值确定所述第i分词的关联度;根据所述第i分词的PR值和所述第i分词的关联度确定所述第i分词的关键度;根据所述第一至第N分词的关键度确定所述待处理的文本的关键词。采用本发明实施例的技术方案,能够解决在关键词提取过程中对出现频率不高的关键词提取不准确的问题。 | ||
搜索关键词: | 一种 关键词 提取 方法 装置 | ||
【主权项】:
1.一种关键词提取方法,其特征在于,所述方法包括:根据预设规则获取待处理的文本的分词集合,所述分词集合中至少包括第一至第N分词,N为大于1的整数;确定所述分词集合中第i分词的网页级别PR值,所述i为大于等于1且小于等于N的整数;确定所述分词集合中两两分词之间的编码距离;获取第一编码距离集合,所述第一编码距离集合包括第i分词与除所述第i分词外其他分词之间的编码距离;根据第一编码距离集合和所述第i分词对应的第i阈值确定所述第i分词的关联度;根据所述第i分词的PR值和所述第i分词的关联度确定所述第i分词的关键度;根据所述第一至第N分词的关键度确定所述待处理的文本的关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于努比亚技术有限公司,未经努比亚技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611086114.8/,转载请声明来源钻瓜专利网。