[发明专利]一种自动生成首页摘要的方法及装置在审
申请号: | 201210075414.1 | 申请日: | 2012-03-21 |
公开(公告)号: | CN103324622A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 方高林 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 首页 摘要 方法 装置 | ||
1.一种自动生成首页摘要的方法,包括:
A、确定多个与待处理首页属于同一类别网站且具有描述信息的首页;
B、利用确定出的多个首页的描述信息抽取摘要模板;
C、从所述待处理首页中提取关键词并填充至所述摘要模板中的对应槽位,得到所述待处理首页的摘要。
2.根据权利要求1所述的方法,其特征在于,在所述步骤A之前还包括:
判断所述待处理首页是否存在描述信息,如果是,则直接将所述描述信息作为所述待处理首页的摘要;否则,执行所述步骤A。
3.根据权利要求1所述的方法,其特征在于,所述步骤A具体包括:
A1、根据预设的网站类别表,确定与所述待处理首页属于同一类别的候选网站;
A2、从所述候选网站对应的首页中获取多个具有描述信息的首页。
4.根据权利要求3所述的方法,其特征在于,所述网站类别表是通过从互联网的导航分类信息中提取已分类的网站后得到的;或者,是通过对搜索日志记录的各点击页面所对应的网站进行分类后得到的,其中分类采用的策略是将相同查询引起的不同点击页面所对应的网站作为一类。
5.根据权利要求3所述的方法,其特征在于,所述步骤A2中确定所述候选网站对应的首页的步骤具体包括:
查询预设的网站与首页之间的映射表,以得到各候选网站分别对应的首页;或者,针对各候选网站,将该候选网站的名称作为查询关键词以获得搜索引擎返回的检索结果,并从检索结果中提取满足首页特征的页面作为该候选网站对应的首页。
6.根据权利要求5所述的方法,其特征在于,所述首页特征具体包括:
页面的URL中仅包括域名,且页面包含与候选网站名称对应的验证信息,所述验证信息包括文字或图示。
7.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:
比对所述多个首页的描述信息,将所述多个首页的描述信息中对应位置相同而内容不同的部分抽象为模板槽位,得到摘要模板。
8.根据权利要求1所述的方法,其特征在于,所述步骤C中从所述待处理首页中提取锚文本词作为关键词。
9.根据权利要求1,其特征在于,所述摘要模板的对应槽位包括:网站名和导航主题;
所述步骤C具体包括:提取所述待处理首页的网站名并填入所述摘要模板的网站名槽位,提取所述待处理首页具有导航特征的锚文本词并填入所述摘要模板的导航主题槽位。
10.一种自动生成首页摘要的装置,包括:
首页确定单元,用于确定多个与待处理首页属于同一类别网站且具有描述信息的首页;
模板生成单元,用于利用确定出的多个首页的描述信息抽取摘要模板;
关键词提取单元,用于从所述待处理首页中提取关键词并填充至所述摘要模板中的对应槽位,得到所述待处理首页的摘要。
11.根据权利要求10所述的装置,其特征在于,所述装置进一步包括判断单元,所述判断单元连接至所述首页确定单元,用于判断所述待处理首页是否存在描述信息,如果是,则直接将所述描述信息作为所述待处理首页的摘要,否则触发所述首页确定单元执行。
12.根据权利要求10所述的装置,其特征在于,所述首页确定单元具体包括:
网站确定子单元,用于根据预设的网站类别表,确定与所述待处理首页属于同一类别的候选网站;
选取子单元,用于从所述候选网站对应的首页中获取多个具有描述信息的首页。
13.根据权利要求12所述的装置,其特征在于,所述网站类别表是通过从互联网的导航分类信息中提取已分类的网站后得到的;或者,是通过对搜索日志记录的各点击页面所对应的网站进行分类后得到的,其中分类采用的策略是将相同查询引起的不同点击页面所对应的网站作为一类。
14.根据权利要求12所述的装置,其特征在于,所述选取子单元确定所述候选网站对应的首页的方式具体包括:
查询预设的网站与首页之间的映射表,以得到各候选网站分别对应的首页;或者,针对各候选网站,将该候选网站的名称作为查询关键词以获得搜索引擎返回的检索结果,并从检索结果中提取满足首页特征的页面作为该候选网站对应的首页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210075414.1/1.html,转载请声明来源钻瓜专利网。