[发明专利]一种智能化的新闻网页信息抽取方法有效

专利信息
申请号: 201610561500.1 申请日: 2016-07-14
公开(公告)号: CN106227770B 公开(公告)日: 2019-06-21
发明(设计)人: 叶章龙;范渊;黄进 申请(专利权)人: 杭州安恒信息技术股份有限公司
主分类号: G06F16/955 分类号: G06F16/955
代理公司: 杭州中成专利事务所有限公司 33212 代理人: 周世骏
地址: 310051 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及互联网数据收集技术,旨在提供一种智能化的新闻网页信息抽取方法。该种智能化的新闻网页信息抽取方法包括步骤:自动生成初始抽取模板;在使用的过程中自学习地进行模板更新。本发明充分利用了网页结构特点,及借助基本抽取数据进行自动化的模板生成,解决了传统模板化抽取方法中要手工制作模板成本高的问题,而且在最后会生成模板也同样解决了通用抽取方法对短文本抽取准确度低的问题;本发明基于自学习的方法在使用模板的过程中进行自动的模板更新,通过这样一方面解决了模板抽取方法中因为不能及时更新模板而导致的延后和大量更新模板工作量大的问题。而且自学习和的方法也可以减少模板过渡时间内出现大量抽取垃圾数据的问题。
搜索关键词: 一种 智能化 新闻 网页 信息 抽取 方法
【主权项】:
1.一种智能化的新闻网页信息抽取方法,其特征在于,具体包括下述步骤:步骤(1):自动生成初始抽取模板;步骤(2):在使用的过程中自学习地进行模板更新;所述步骤(1)具体包括下述子步骤:步骤A:首先获取需要进行网页信息抽取的网站的至少50个近期新闻网页链接,作为样本;步骤B:对步骤A获取的新闻网页,抽取页面标签框架;所述页面标签框架是指由html标签构成的一个树型标签层次框架;步骤C:对步骤B中抽取的所有网页的标签框架,进行标签框架结构比对,识别出共有网页标签框架;所述共有网页标签框架是指所有网页标签框架中均包含的标签框架;步骤D:对步骤A中获取的新闻网页,使用基于文本密度的通用抽取算法,抽取正文信息;步骤E:对步骤A中获取的新闻网页,根据步骤C和步骤D的处理结果,识别出同一个网页在步骤D中的得到的正文信息,其在步骤C获取的共有网页标签框架中的标签位置;所述标签位置是指包含该正文信息的最内层标签;步骤F:根据步骤E获取的所有标签位置和步骤C的处理结果,识别出标签位置在共有网页标签框架中的网页标签路径;所述网页标签路径是指html标签框架树中的一个分支路径;步骤G:对步骤F的处理结果进行统计,统计出各标签路径的出现次数;这里的出现是指一个路径自己出现或是被另外一个路径包含;然后根据统计出来的各标签路径的出现次数进行排序,获取出现次数最多的路径,并从出现次数最多的路径中选取路径深度最深的路径作为模板路径,并生成抽取模板;所述路径深度是指路径的层次数,层次数越多深度越深;所述抽取模板是指由标签路径保存成的信息,并以标签树的形式保存为模板,用于新闻网页的正文内容抽取;所述步骤(2)具体包括下述子步骤:步骤H:周期性地从历史链接库中抽取至少200个的新闻链接,再次使用步骤G中生成的抽取模板进行新闻正文抽取;所述历史链接库中保存有已经被成功抽取出正文的新闻链接;步骤I:将步骤H得到的抽取结果,与历史的抽取结果进行对比,用于识别抽取模板是否依然有效:若新的抽取结果与历史抽取结果不符,则说明该抽取模板已经失效,执行步骤J;若新的抽取结果与历史抽取结果相同,则认为该抽取模板仍然有效,则跳到步骤K执行;步骤J:重复执行步骤(1),获取近期的新闻页面,重新生成新的抽取模板;步骤K:到达设定的周期时间时,重新执行步骤H,即进行周期性的模板有效性判断及更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610561500.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top