[发明专利]基于关键词匹配进行中文网页预分类的方法有效

专利信息
申请号: 201610741134.8 申请日: 2016-08-26
公开(公告)号: CN106339459B 公开(公告)日: 2019-11-26
发明(设计)人: 张云;冯多;木伟民;王伟平 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F16/35 分类号: G06F16/35;G06F16/955;G06F17/27
代理公司: 11200 北京君尚知识产权代理有限公司 代理人: 余长江<国际申请>=<国际公布>=<进入
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。
搜索关键词: 基于 关键词 匹配 进行 中文 网页 分类 方法
【主权项】:
1.基于关键词匹配进行中文网页预分类的方法,包括如下步骤:/n1)标注训练集TRS中每一条训练网页TR的类别标签TAG以及表征该网页类别的关键词集KWS,生成在映射M中键值对的值为1的关键词表KWT;/n2)根据KWT提取测试集TES中每一条测试网页TE中包含的关键词,组成关键词集TEK;/n3)计算出TEK的每个二元组TEC并遍历训练集,将KWS包含该TEC的TR的TAG转移给该TEC对应的TE,并将该TAG存入到该TE的标签集TAGS中,其中计算TEK的二元组TEC的具体步骤如下:/n3-1-1)对于包含N个关键词K1,K2,……,KN的TEK,按照如下的顺序查找关键词对,每一个关键词对都需进入到步骤3-1-2)进行判断:包含K1的关键词对为<K1,K2>,<K1,K3>,……,<K1,KN>,包含K2的关键词对为<K2,K3>,……,<K2,KN>,这样直至包含K(N-1)的关键词对<K(N-1),KN>;/n3-1-2)若当前关键词对中至少有一个满足其在M中的对应的值为1,则对TEC遍历训练集TRS;若不满足,回到步骤3-1-1),查找下一个关键词对;/n4)将TAGS中的标签进行频次统计,根据需求取频次最高的几个标签,作为该测试网页的预分类标签。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610741134.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top