[发明专利]网页信息提取方法、装置、系统及电子设备在审

申请号：	201710647576.0	申请日：	2017-08-01
公开（公告）号：	CN110020038A	公开（公告）日：	2019-07-16
发明（设计）人：	薛亮	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/35;G06F17/22
代理公司：	北京市惠诚律师事务所 11353	代理人：	逯博
地址：	英属开曼群岛大开***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	区块网页信息提取电子设备提取信息文本信息网页信息提取规则结构化数据领域分类所属领域信息提取分类维护
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种网页信息提取方法、装置、系统及电子设备，其中，方法包括：对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类，以得到各所述区块在该领域中所属的类别；对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取，并形成结构化数据。本发明实施例的方案旨在提高从网页中提取信息的效率和准确性，同时降低维护用于提取信息所使用的模型的成本。

技术领域

本申请涉及计算机技术领域，尤其涉及一种网页信息提取方法、装置、系统及电子设备。

背景技术

目前大部分的爬虫系统或信息抽取方法主要分为两类：

第一类是基于正则或XPath进行数据抽取，第二类是基于模板和规则进行数据抽取。前者主要通过对网页内数据进行人为分析，定位到数据的位置，一般通过XPath进行实际的数据提取，也可通过正则表达式等规则进行数据抽取，这种方法准确率较高；后者则是基于模板的方法进行数据提取，针对不同的网站的数据，采用不同的模板，第二类方法也可视为是相对于第一类方法，从每个网站一个规则变成了每个网站一个模板。

现有技术的缺陷：

第一类方法需要完全基于人的分析，无论是正则还是XPath，对于网页结构有较强的依赖，一旦对象网站发生变化，就回导致规则失效，实际工作中需要大量的精力去维护已有的解析规则。第二类方法虽然较第一种方法有所改进，但准确率有所降低，基于模板的方法也需要去维护模板，并且每个网站很可能需要对应维护一个模板，维护成本较高，扩展性较差。

发明内容

本发明提供了一种网页信息抽取方法、装置、系统及电子设备，旨在提高从网页中提取信息的效率和准确性，同时降低维护用于提取信息所使用的模型的成本。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供了一种网页信息提取方法，包括：

对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类，以得到各所述区块在该领域中所属的类别；

对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取，并形成结构化数据。

第二方面，提供了另一种网页信息提取方法，包括：

对待处理网页进行页面分割，以形成多个区块；

对至少一个所述区块的文本信息采用与待处理网页所属领域相同的领域分类模型进行计算分类，以得到各所述区块在该领域中所属的类别；

确定各所述区块所属类别相适用的信息提取规则，并对各所述区块内文本信息进行信息提取。

第三方面，提供了一种网页信息提取装置，包括：

区块分类模块，用于对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类，以得到各所述区块在该领域中所属的类别；