[发明专利]结构变化网页的自适应数据抽取方法在审
申请号: | 201910326704.0 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110083754A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 杨杰 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F17/27 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种结构变化网页的自适应数据抽取方法,包括:采集网页抽取数据,判断所述网页抽取数据是否异常;当网页抽取数据出现异常时,选取若干个出现异常前的已抽取网页,并获取其已抽取的内容;根据所述已抽取的内容,获取已抽取内容的核心语义;将所述核心语义与出现异常后的当前网页每个节点的信息进行相似度对比,获取最匹配节点;重复上述步骤,直至完成选取的所有已抽取网页与对应的当前网页的内容的相似度判断;根据相似度判断结果,确定所有与已抽取的内容对应的当前网页中的内容位置,进而获取采集路径,完成自适应数据抽取;本发明提高了自动化网页抽取方法抗风险能力,具有更高的稳定性,可以应对复杂多变的网络环境。 | ||
搜索关键词: | 网页 抽取 网页抽取 数据抽取 自适应 相似度判断 核心语义 结构变化 采集 抗风险能力 相似度对比 内容位置 匹配节点 网络环境 自动化 重复 | ||
【主权项】:
1.一种结构变化网页的自适应数据抽取方法,其特征在于,包括:采集网页抽取数据,判断所述网页抽取数据是否异常;当网页抽取数据出现异常时,选取若干个出现异常前的已抽取网页,并获取其已抽取的内容;根据所述已抽取的内容,获取已抽取内容的核心语义;将所述核心语义与出现异常后的当前网页每个节点的信息进行相似度对比,获取最匹配节点;重复上述步骤,直至完成选取的所有已抽取网页与对应的当前网页的内容的相似度判断;根据相似度判断结果,确定所有与已抽取的内容对应的当前网页中的内容位置,进而获取采集路径,完成自适应数据抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910326704.0/,转载请声明来源钻瓜专利网。