[发明专利]结构变化网页的自适应数据抽取方法在审
申请号: | 201910326704.0 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110083754A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 杨杰 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F17/27 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 抽取 网页抽取 数据抽取 自适应 相似度判断 核心语义 结构变化 采集 抗风险能力 相似度对比 内容位置 匹配节点 网络环境 自动化 重复 | ||
1.一种结构变化网页的自适应数据抽取方法,其特征在于,包括:
采集网页抽取数据,判断所述网页抽取数据是否异常;
当网页抽取数据出现异常时,选取若干个出现异常前的已抽取网页,并获取其已抽取的内容;
根据所述已抽取的内容,获取已抽取内容的核心语义;
将所述核心语义与出现异常后的当前网页每个节点的信息进行相似度对比,获取最匹配节点;
重复上述步骤,直至完成选取的所有已抽取网页与对应的当前网页的内容的相似度判断;
根据相似度判断结果,确定所有与已抽取的内容对应的当前网页中的内容位置,进而获取采集路径,完成自适应数据抽取。
2.根据权利要求1所述的结构变化网页的自适应数据抽取方法,其特征在于,通过数据抽取规则获取采集路径,所述数据抽取规则包括原始文档对象模型树从某个节点到采集信息节点的路径信息、执行路径时每一步的操作信息以及原始文档对象模型的属性信息。
3.根据权利要求2所述的结构变化网页的自适应数据抽取方法,其特征在于,获取数据抽取的绝对路径,对所述原始文档对象模型树进行重构,
当在所述绝对路径中获取到具有唯一身份标识的的类或对象时,其特征在于,则选取所述唯一性的类或对象对应的节点作为采集路径的起始点,进行数据抽取,否则,选取所述绝对路径作为数据抽取的路径。
4.根据权利要求2所述的结构变化网页的自适应数据抽取方法,其特征在于,预先设置抽取异常阈值,获取有效数据量与需要抽取数据的比值,当所述有效数据量与需要抽取数据的比值低于所述阈值时,判定数据抽取异常。
5.根据权利要求4所述的结构变化网页的自适应数据抽取方法,其特征在于,预设若干级预警等级,当所述有效数据量与需要抽取数据的比值低于所述阈值时,则预警等级升高一级,当所述有效数据量与需要抽取数据的比值高于所述阈值时,则降低一级,当预警等级达到最高级时,则判定数据抽取异常。
6.根据权利要求4所述的结构变化网页的自适应数据抽取方法,其特征在于,所述阈值通过如下公式获取:
e-λ(n-1)
其中,n为网页抽取的数量,λ为调整系数。
7.根据权利要求1所述的结构变化网页的自适应数据抽取方法,其特征在于,随机抽取若干个已抽取网页,并获取其已抽取的内容,对所述已抽取的内容进行预处理,获取已抽取内容的核心语义,所述预处理至少包括:分词处理、词性还原处理和词干提取处理。
8.根据权利要求1所述的结构变化网页的自适应数据抽取方法,其特征在于,将所述核心语义与当前网页的中每个节点的文本信息和/或图片信息进行余弦相似度判定,根据判定结果获取所述最匹配节点。
9.根据权利要求8所述的结构变化网页的自适应数据抽取方法,其特征在于,对当前网页中的所有抽取内容进行相似度判定,并分别计算其各自的权重,将权重占比最高的节点,作为当前网页的内容位置。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1至9中任一项所述方法。
11.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至9中任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910326704.0/1.html,转载请声明来源钻瓜专利网。