[发明专利]一种模板配置方法及系统在审
申请号: | 201610162744.2 | 申请日: | 2016-03-21 |
公开(公告)号: | CN107220250A | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 曹六一;张丹;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李相雨 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模板 配置 方法 系统 | ||
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种模板配置方法及系统。
背景技术
数据抽取是数据采集中的一个重要环节,所有采集到的原始网页需要经过数据抽取才能获得有效的数据,如标题、正文等。基于模板的数据抽取是根据特定的网页模板抽取网页内容的技术。
模板由抽取表达式并通过XML或者JSON等组织而成。常用的抽取表达式有正则表达式与XPATH。其中,正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。XPATH,是XML路径语言,它是一种用来确定XML文档中某部分的位置的语言。程序通过读取模板,依照模板中的表达式或路径语言即可提取出网页中的所需内容。
现有技术中都是采用手工配置模板。但是,由于手工配置模板是一个复杂而又繁琐的工作,不同的网页其结构千差万别,因而需要配置各种不同的模板。因此,在采集网页的种类比较多的时候,手工配置往往成为整个工程的瓶颈所在,费时费力,而且手工配置的模板不可避免会出现纰漏,又没有工具去预览模板抽取结果,导致模板在配置过程中需要进行重复修正。
发明内容
鉴于上述问题,本发明提出了一种模板配置方法及系统,解决了现有技术中手工配置模板过程费时费力,而且需要进行重复修正的问题,实现了模板的自动配置。
根据本发明的第一方面,提供了一种模板配置方法,该方法包括:
获取网页的URL地址,根据所述URL地址加载对应的网页;
当接收到用户对所述网页触发的选取操作时,提取所述选取操作对应的网页内容;
查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;
将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。
其中,所述查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式,进一步包括:
获取所述网页对应的树状结构;
逐层遍历所述网页对应的树状结构,查找所述网页节点在所述树状结构中的位置;
根据查找到的位置,计算所述网页节点的Xpath路径和/或相对路径;
根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。
其中,所述根据查找到的位置,计算所述网页节点的相对路径,进一步包括:
获取所述网页节点的父节点的Xpath路径;
根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。
其中,在所述获取网页的URL地址,根据所述URL地址加载对应的网页之后,所述方法还包括:
在所述预设模板树中选取需要进行配置节点,将其作为当前配置节点;
其中,所述预设模板树包括ROOT节点、列表节点、元素节点、属性节点和文本节点;
每一节点采用KEY-VALUE格式;
每一节点的VALUE包括type、xpath、pattr和child属性。
其中,所述方法进一步包括:
采用得到的模板对所述网页进行数据提取,并将数据提取结果进行展示。
根据本发明的第二方面,提供了一种模板配置系统,该系统包括:
加载单元,用于获取网页的URL地址,根据所述URL地址加载对应的网页;
确定单元,用于当接收到用户对所述加载单元记载的网页触发的选取操作时,确定所述选取操作对应的网页内容;
生成单元,用于查找所述确定单元确定出的网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;
传输单元,用于将所述生成单元生成的抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。
其中,所述生成单元,进一步包括:
获取模块,用于获取所述网页对应的树状结构;
查找模块,用于逐层遍历所述网页对应的树状结构,查找所述网页节点在所述树状结构中的位置;
计算模块,用于根据查找到的位置,计算所述网页节点的Xpath路径和/或相对路径;
生成模块,用于根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610162744.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于分类的全文搜索
- 下一篇:生成描述信息的方法及装置