[发明专利]一种智能化的新闻网页信息抽取方法有效
申请号: | 201610561500.1 | 申请日: | 2016-07-14 |
公开(公告)号: | CN106227770B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 叶章龙;范渊;黄进 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及互联网数据收集技术,旨在提供一种智能化的新闻网页信息抽取方法。该种智能化的新闻网页信息抽取方法包括步骤:自动生成初始抽取模板;在使用的过程中自学习地进行模板更新。本发明充分利用了网页结构特点,及借助基本抽取数据进行自动化的模板生成,解决了传统模板化抽取方法中要手工制作模板成本高的问题,而且在最后会生成模板也同样解决了通用抽取方法对短文本抽取准确度低的问题;本发明基于自学习的方法在使用模板的过程中进行自动的模板更新,通过这样一方面解决了模板抽取方法中因为不能及时更新模板而导致的延后和大量更新模板工作量大的问题。而且自学习和的方法也可以减少模板过渡时间内出现大量抽取垃圾数据的问题。 | ||
搜索关键词: | 一种 智能化 新闻 网页 信息 抽取 方法 | ||
【主权项】:
1.一种智能化的新闻网页信息抽取方法,其特征在于,具体包括下述步骤:步骤(1):自动生成初始抽取模板;步骤(2):在使用的过程中自学习地进行模板更新;所述步骤(1)具体包括下述子步骤:步骤A:首先获取需要进行网页信息抽取的网站的至少50个近期新闻网页链接,作为样本;步骤B:对步骤A获取的新闻网页,抽取页面标签框架;所述页面标签框架是指由html标签构成的一个树型标签层次框架;步骤C:对步骤B中抽取的所有网页的标签框架,进行标签框架结构比对,识别出共有网页标签框架;所述共有网页标签框架是指所有网页标签框架中均包含的标签框架;步骤D:对步骤A中获取的新闻网页,使用基于文本密度的通用抽取算法,抽取正文信息;步骤E:对步骤A中获取的新闻网页,根据步骤C和步骤D的处理结果,识别出同一个网页在步骤D中的得到的正文信息,其在步骤C获取的共有网页标签框架中的标签位置;所述标签位置是指包含该正文信息的最内层标签;步骤F:根据步骤E获取的所有标签位置和步骤C的处理结果,识别出标签位置在共有网页标签框架中的网页标签路径;所述网页标签路径是指html标签框架树中的一个分支路径;步骤G:对步骤F的处理结果进行统计,统计出各标签路径的出现次数;这里的出现是指一个路径自己出现或是被另外一个路径包含;然后根据统计出来的各标签路径的出现次数进行排序,获取出现次数最多的路径,并从出现次数最多的路径中选取路径深度最深的路径作为模板路径,并生成抽取模板;所述路径深度是指路径的层次数,层次数越多深度越深;所述抽取模板是指由标签路径保存成的信息,并以标签树的形式保存为模板,用于新闻网页的正文内容抽取;所述步骤(2)具体包括下述子步骤:步骤H:周期性地从历史链接库中抽取至少200个的新闻链接,再次使用步骤G中生成的抽取模板进行新闻正文抽取;所述历史链接库中保存有已经被成功抽取出正文的新闻链接;步骤I:将步骤H得到的抽取结果,与历史的抽取结果进行对比,用于识别抽取模板是否依然有效:若新的抽取结果与历史抽取结果不符,则说明该抽取模板已经失效,执行步骤J;若新的抽取结果与历史抽取结果相同,则认为该抽取模板仍然有效,则跳到步骤K执行;步骤J:重复执行步骤(1),获取近期的新闻页面,重新生成新的抽取模板;步骤K:到达设定的周期时间时,重新执行步骤H,即进行周期性的模板有效性判断及更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610561500.1/,转载请声明来源钻瓜专利网。
- 上一篇:数据存储方法及装置
- 下一篇:一种基于社会化编程网站的领域专家发现方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置