[发明专利]基于关键词匹配进行中文网页预分类的方法有效
申请号: | 201610741134.8 | 申请日: | 2016-08-26 |
公开(公告)号: | CN106339459B | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 张云;冯多;木伟民;王伟平 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/955;G06F17/27 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 余长江<国际申请>=<国际公布>=<进入 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。 | ||
搜索关键词: | 基于 关键词 匹配 进行 中文 网页 分类 方法 | ||
【主权项】:
1.基于关键词匹配进行中文网页预分类的方法,包括如下步骤:/n1)标注训练集TRS中每一条训练网页TR的类别标签TAG以及表征该网页类别的关键词集KWS,生成在映射M中键值对的值为1的关键词表KWT;/n2)根据KWT提取测试集TES中每一条测试网页TE中包含的关键词,组成关键词集TEK;/n3)计算出TEK的每个二元组TEC并遍历训练集,将KWS包含该TEC的TR的TAG转移给该TEC对应的TE,并将该TAG存入到该TE的标签集TAGS中,其中计算TEK的二元组TEC的具体步骤如下:/n3-1-1)对于包含N个关键词K1,K2,……,KN的TEK,按照如下的顺序查找关键词对,每一个关键词对都需进入到步骤3-1-2)进行判断:包含K1的关键词对为<K1,K2>,<K1,K3>,……,<K1,KN>,包含K2的关键词对为<K2,K3>,……,<K2,KN>,这样直至包含K(N-1)的关键词对<K(N-1),KN>;/n3-1-2)若当前关键词对中至少有一个满足其在M中的对应的值为1,则对TEC遍历训练集TRS;若不满足,回到步骤3-1-1),查找下一个关键词对;/n4)将TAGS中的标签进行频次统计,根据需求取频次最高的几个标签,作为该测试网页的预分类标签。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610741134.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种防脱生发搽剂及其制备方法
- 下一篇:一种治疗鸡瘟的中药配方