[发明专利]一种自动生成首页摘要的方法及装置在审

专利信息
申请号: 201210075414.1 申请日: 2012-03-21
公开(公告)号: CN103324622A 公开(公告)日: 2013-09-25
发明(设计)人: 方高林 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动 生成 首页 摘要 方法 装置
【说明书】:

【技术领域】

发明涉及自然语言处理技术,特别涉及一种自动生成首页摘要的方法及装置。

【背景技术】

对于搜索引擎而言,在向用户提供检索结果时,除了给出检索结果的链接,通常还会在检索结果的链接下方给出链接指向页面的摘要信息,以帮助用户快速地了解该链接所指向页面的主要内容。请参考图1,图1为搜索引擎的检索结果中为对应网页提供摘要信息的示意图。为了向用户提供如图1所示的摘要信息,搜索引擎首先需要从页面中提取摘要。对源文件的meta标签没有提供描述信息的普通网页,搜索引擎会通过对页面内容的语义分析提取页面的关键词作为该页面的摘要,但是对源文件的meta标签中提供了描述信息的网页,搜索引擎会将该描述信息作为相应页面的摘要。请参考图2,图2为网页源文件的meta标签中包括描述信息的示意图。

网站的首页是打开一个网站时的默认页面,通常网站的首页具有导航的作用,因此包含的信息比较杂乱,当对首页进行语义分析时,很难得到准确的首页主题,这就造成当采用上述提取摘要的方式对源文件的meta标签中缺乏描述信息的首页进行摘要提取时,得到内容杂乱的摘要信息,影响了摘要信息的准确性。请参考图3,图3为采用现有技术对缺乏描述信息的首页提取的摘要示意图。与图2示出的描述信息相比,可以看出图3中显示的摘要缺乏一致的语义逻辑,对首页主题描述的准确性较差。

【发明内容】

本发明所要解决的技术问题是提供一种自动生成首页摘要的方法及装置,以解决现有技术在首页的meta标签缺乏描述信息时自动生成的摘要准确性差的缺陷。

本发明为解决技术问题而采用的技术方案是提供一种自动生成首页摘要的方法,包括:A、确定多个与待处理首页属于同一类别网站且具有描述信息的首页;B、利用确定出的多个首页的描述信息抽取摘要模板;C、从所述待处理首页中提取关键词并填充至所述摘要模板中的对应槽位,得到所述待处理首页的摘要。

根据本发明之一优选实施例,在所述步骤A之前还包括:判断所述待处理首页是否存在描述信息,如果是,则直接将所述描述信息作为所述待处理首页的摘要;否则,执行所述步骤A。

根据本发明之一优选实施例,所述步骤A具体包括:A1、根据预设的网站类别表,确定与所述待处理首页属于同一类别的候选网站;A2、从所述候选网站对应的首页中获取多个具有描述信息的首页。

根据本发明之一优选实施例,所述网站类别表是通过从互联网的导航分类信息中提取已分类的网站后得到的;或者,是通过对搜索日志记录的各点击页面所对应的网站进行分类后得到的,其中分类采用的策略是将相同查询引起的不同点击页面所对应的网站作为一类。

根据本发明之一优选实施例,所述步骤A2中确定所述候选网站对应的首页的步骤具体包括:查询预设的网站与首页之间的映射表,以得到各候选网站分别对应的首页;或者,针对各候选网站,将该候选网站的名称作为查询关键词以获得搜索引擎返回的检索结果,并从检索结果中提取满足首页特征的页面作为该候选网站对应的首页。

根据本发明之一优选实施例,所述首页特征具体包括:页面的URL中仅包括域名,且页面包含与候选网站名称对应的验证信息,所述验证信息包括文字或图示。

根据本发明之一优选实施例,所述步骤B具体包括:比对所述多个首页的描述信息,将所述多个首页的描述信息中对应位置相同而内容不同的部分抽象为模板槽位,得到摘要模板。

根据本发明之一优选实施例,所述步骤C中从所述待处理首页中提取锚文本词作为关键词。

根据本发明之一优选实施例,所述摘要模板的对应槽位包括:网站名和导航主题;所述步骤C具体包括:提取所述待处理首页的网站名并填入所述摘要模板的网站名槽位,提取所述待处理首页具有导航特征的锚文本词并填入所述摘要模板的导航主题槽位。

本发明还提供了一种自动生成首页摘要的装置,包括:首页确定单元,用于确定多个与待处理首页属于同一类别网站且具有描述信息的首页;模板生成单元,用于利用确定出的多个首页的描述信息抽取摘要模板;关键词提取单元,用于从所述待处理首页中提取关键词并填充至所述摘要模板中的对应槽位,得到所述待处理首页的摘要。

根据本发明之一优选实施例,所述装置进一步包括判断单元,所述判断单元连接至所述首页确定单元,用于判断所述待处理首页是否存在描述信息,如果是,则直接将所述描述信息作为所述待处理首页的摘要,否则触发所述首页确定单元执行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210075414.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top