[发明专利]一种网页分类方法及装置有效
申请号: | 200610167466.6 | 申请日: | 2006-12-20 |
公开(公告)号: | CN101178714A | 公开(公告)日: | 2008-05-14 |
发明(设计)人: | 文勖 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 刘岩 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页分类方法及装置,用以解决现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问题。所述方法包括步骤:从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词,从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本,对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别;所述系统包括分类锚文本选取模块、分类关键词确定模块、查找模块和特征文本分类模块。本发明大大提高了分类的准确率和召回率,同时减小了分类处理过程中的计算量。 | ||
搜索关键词: | 一种 网页 分类 方法 装置 | ||
【主权项】:
1.一种网页分类方法,其特征在于,包括步骤:A、从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词;B、从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本;C、对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200610167466.6/,转载请声明来源钻瓜专利网。
- 上一篇:低b值4A沸石的生产方法
- 下一篇:数字式脉冲固定超前时间移相电路