[发明专利]网页分类方法和装置、网页分类器的训练方法和装置在审
申请号: | 201210362603.7 | 申请日: | 2012-09-25 |
公开(公告)号: | CN103678422A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 张中峰;刘书良;赵琴琴;张一凡;罗峰;黄苏支;李娜 | 申请(专利权)人: | 北京亿赞普网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 分类 方法 装置 训练 | ||
1.一种网页分类方法,其特征在于,包括:
提取待分类网页的用户搜索行为特征;
依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
2.如权利要求1所述的方法,其特征在于,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
依据所述待分类网页的页面地址,在关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;
所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
3.如权利要求1所述的方法,其特征在于,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
依据所述待分类网页对应的用户物理地址和搜索跳转信息,在所述用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;
所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
4.如权利要求2所述的方法,其特征在于,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
5.如权利要求1所述的方法,其特征在于,还包括:
提取待分类网页的网页内容特征;
对所述网页内容特征进行降维;
融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
依据第二网页分类器判别该融合特征所属的网页类别;其中,所述第二网页分类器为依据网页类别样本的融合特征所构造的分类器。
6.如权利要求5所述的方法,其特征在于,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括:
选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
7.如权利要求5或6所述的方法,其特征在于,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亿赞普网络技术有限公司,未经北京亿赞普网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210362603.7/1.html,转载请声明来源钻瓜专利网。