[发明专利]网页分类方法、装置以及计算机可读存储介质在审
申请号: | 201711417014.3 | 申请日: | 2017-12-25 |
公开(公告)号: | CN110110075A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 娄京生;蔡鑫 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/955 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 曲瑞 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及一种网页分类方法、装置以及计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:获取待分类网页;提取待分类网页的网页结构特征和统一资源定位符URL特征中的至少一项特征以及文本特征,组成待分类网页的特征向量;将待分类网页的特征向量输入训练好的神经网络模型,得到待分类网页的类型。本公开提取待分类网页的网页结构特征和URL特征中的至少一项特征以及文本特征组成特征向量,利用神经网络根据网页的特征向量对网页进行分类。本公开不仅考虑网页文本内容还结合网页结构或URL特征,从多方面综合分析网页的特征,并且利用神经网络能够快速准确的自动对网页进行分类,提升用户体验。 | ||
搜索关键词: | 待分类网页 特征向量 网页 计算机可读存储介质 网页结构特征 神经网络 网页分类 文本特征 计算机技术领域 统一资源定位符 神经网络模型 网页结构 网页文本 用户体验 分类 综合分析 | ||
【主权项】:
1.一种网页分类方法,包括:获取待分类网页;提取所述待分类网页的网页结构特征和统一资源定位符URL特征中的至少一项特征以及文本特征,组成所述待分类网页的特征向量;将所述待分类网页的特征向量输入训练好的神经网络模型,得到所述待分类网页的类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711417014.3/,转载请声明来源钻瓜专利网。