[发明专利]一种网页信息抽取方法及装置有效

专利信息
申请号: 201711458949.6 申请日: 2017-12-28
公开(公告)号: CN110110198B 公开(公告)日: 2021-06-15
发明(设计)人: 梁俊;蒋忠强;全兵;胡小克;巴伟 申请(专利权)人: 中移(苏州)软件技术有限公司;中国移动通信集团公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/951;G06F40/143;G06F40/146;G06N5/02
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 215163 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 信息 抽取 方法 装置
【说明书】:

发明实施例提供了一种网页信息抽取方法及装置,包括:根据网页的DOM树确定网页的候选元素以及文本信息;根据网页的展示页面截图确定网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定各候选元素作为目标抽取元素的第一概率和各候选位置作为目标抽取位置的第二概率;根据第一概率和第二概率从各候选元素和各候选位置中确定目标抽取元素和目标抽取位置;根据确定为目标抽取元素的候选元素和确定为目标抽取位置的候选位置对网页进行信息抽取。通过提取网页的候选元素的文本信息以及候选位置信息,使用神经网络模型和空间概率分布模型对抽取位置进行定位,提高了网页信息抽取的定位精度和容错率,实现网页信息的自动化抽取。

技术领域

本发明实施例涉及互联网技术领域,尤其涉及一种网页信息抽取方法及装置。

背景技术

随着互联网中信息的飞速增长,互联网网页已成为人类获取知识和信息的最重要的途径。传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,对于搜索引擎反馈的大量结果,还需要进行人工排查和筛选。随着信息的爆炸式增长,这种信息检索方式已经很难满足人们全面掌控信息资源的需要,知识图谱技术的出现为解决信息检索问题提供了新的思路。知识图谱技术以图形的方式向用户返回加工和推荐的知识,是实现智能化语义检索的基础和桥梁。而知识图谱的构建需从海量的数据源中提取出实体(概念)、属性以及实体间的相互关系,并在此基础上形成本体化的知识表达。如何构建一个高精度、高自动化的数据信息抽取系统成为了一个亟待解决的技术难题。现有的技术中,一般利用文档对象模型(Document Object Model,简称DOM)树对网页信息进行定位,实现对应位置数据的抽取。在基于网页DOM树的匹配规则来实现网页信息的抽取时,主要过程为:首先,通过网页超级文本标记语言(HyperText Markup Language,简称HTML)代码解析出DOM树;其次,通过人工对DOM树进行规则匹配,查找DOM树符合抽取规则的路径或子树;最后,进行定位并抽取数据。由于该方案过于依赖人工标注DOM树,信息抽取效率低,而对于没有标注过的网页,则很难利用标注规则找到相对应数据的位置并抽取数据。

发明内容

本发明实施例提供一种网页信息抽取方法及装置,用于解决依赖人工标注DOM树定位网页信息抽取位置的方法效率和精度低的问题。

本发明实施例提供了一种网页信息抽取方法,包括:

获取网页的文档对象模型DOM树和所述网页的展示页面截图;

根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;

根据所述网页的展示页面截图确定所述网页的候选位置信息;

根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;

根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;

根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;

根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。

可选地,所述根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率,包括:

将各候选位置信息、各候选元素的文本信息输入神经网络模型;

通过所述神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。

可选地,所述根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率,包括:

将各候选位置信息输入目标抽取元素对应的空间概率分布模型;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团公司,未经中移(苏州)软件技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711458949.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top