[发明专利]一种站点资源管理方法及装置无效
| 申请号: | 201210592976.3 | 申请日: | 2012-12-31 |
| 公开(公告)号: | CN103218390A | 公开(公告)日: | 2013-07-24 |
| 发明(设计)人: | 崔建伟;王佳;李伟刚 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 站点 资源管理 方法 装置 | ||
技术领域
本发明涉及互联网应用技术领域,特别涉及一种站点资源管理方法及装置。
背景技术
随着互联网技术,尤其是智能搜索、智能广告推荐等技术的发展,对于网站进行分析、归类的需求越来越被重视。如此一来,就需要一种将站点的网页资源自动进行分类及组织的管理方法。现有技术中,经常简单的通过网页文本标题对网页进行划分,但这一方法的准确性不高。
发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。
为此,本发明的第一个目的在于提出一种站点资源管理方法,根据网页内容等因素针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据。本发明的第二个目的在于提出一种站点资源管理装置。
为达到上述目的,本发明第一方面的实施例提出了一种站点资源管理方法,包括以下步骤:对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得 到的多个TAG特征和多个Mypos特征;根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
根据本发明实施例的站点资源管理方法,可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。
在本发明的一个实施例中,所述站点资源管理方法进一步包括步骤:根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
在本发明的一个实施例中,根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
在本发明的一个实施例中,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
在本发明的一个实施例中,对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据的步骤包括:对所述web站点进行日志挖掘和站点挖掘,其中通过所述日志挖掘获取页面的URL数据以及所述页面的访问热度,通过所述站点挖掘获取所述站点下各个页面的URL数据以及站点结构数据。
在本发明的一个实施例中,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。
在本发明的一个实施例中,对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征的步骤包括:对所述各个页面的URL数据进行切词分析以得到多个词;将所述多个词与训练得到的多个TAG特征 和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。
本发明第二方面的实施例提出了一种站点资源管理装置,包括:挖掘模块,用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;特征获取模块,用于对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;权重计算模块,用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
根据本发明实施例的站点资源管理装置,可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。
在本发明的一个实施例中,所述站点资源管理装置进一步包括:页面分类模块,用于根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
在本发明的一个实施例中,所述站点资源管理装置进一步包括:相似度计算模块,用于根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
在本发明的一个实施例中,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210592976.3/2.html,转载请声明来源钻瓜专利网。





