[发明专利]网页信息提取方法、装置、系统及电子设备在审
申请号: | 201710647576.0 | 申请日: | 2017-08-01 |
公开(公告)号: | CN110020038A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 薛亮 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06F17/22 |
代理公司: | 北京市惠诚律师事务所 11353 | 代理人: | 逯博 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 区块 网页信息提取 电子设备 提取信息 文本信息 网页 信息提取规则 结构化数据 领域分类 所属领域 信息提取 分类 维护 | ||
1.一种网页信息提取方法,其特征在于,包括:
对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类,以得到各所述区块在该领域中所属的类别;
对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取,并形成结构化数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待处理网页进行页面渲染,以得到所述待处理网页包含的元素文本;
基于所述元素文本所体现的视觉特征,对所述待处理网页进行页面分割,以形成多个所述区块。
3.根据权利要求2所述的方法,其特征在于,所述基于所述元素文本所体现的视觉特征,对所述待处理网页进行页面分割,形成多个所述区块包括:
对所述元素文本进行解析和转换,以得到所述待处理网页对应的元素树;
对所述元素树中的各次底层节点,遍历与其连接的各底层节点,如果存在至少两个底层节点对应的元素的相似度大于预设阈值,则将该至少两个底层节点合并,并将合并后的节点和未合并的各底层节点分别记为第一节点;
针对各所述第一节点,如果所述第一节点对应的所述元素的文本信息中包含干扰信息或无用信息,则剔除该第一节点,并将剩余的各所述第一节点所对应的元素分别记为一个区块,且元素内包含的文本信息记为所述区块的文本信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
针对各所述第一节点:
如果所述第一节点包含的原始节点中,存在至少一个所述原始节点对应的元素的文本信息中包含商品链接和推荐关键词,则确定该第一节点包含所述干扰信息;
或者,如果所述第一节点中一个原始节点对应的元素的文本信息中包含商品链接,该原始节点的叔节点对应的元素的文本信息中包含推荐关键词,则确定该第一节点包含所述干扰信息。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
针对各所述第一节点中包含的原始节点,如果一个原始节点对应的元素的文本信息中包含无用字典中的关键词,则确定该原始节点所在的所述第一节点包含所述无用信息。
6.根据权利要求1所述的方法,其特征在于,所述领域分类模型为采用随机森林算法对目标领域内已标注类别的特征数据进行学习所生成,
所述对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类,以得到各所述区块在该领域中所属的类别包括:
从各所述区块的文本信息中提取特征数据的特征值,并形成特征向量;
将所述特征向量作为输入数据输入到所述领域分类模型中进行领域分类计算,以得到各所述区块在其所属的领域中的类别。
7.根据权利要求1所述的方法,其特征在于,所述对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取所采用的工具包括:
开源语法分析器antlr,正则表达式、领域专用语言DSL中的一种或多种。
8.一种网页信息提取方法,其特征在于,包括:
对待处理网页进行页面分割,以形成多个区块;
对至少一个所述区块的文本信息采用与待处理网页所属领域相同的领域分类模型进行计算分类,以得到各所述区块在该领域中所属的类别;
确定各所述区块所属类别相适用的信息提取规则,并对各所述区块内文本信息进行信息提取。
9.根据权利要求8所述的方法,其特征在于,所述对待处理网页进行页面分割,以形成多个区块之前还包括:
对所述待处理网页进行页面渲染,以得到所述待处理网页包含的元素文本;
所述对待处理网页进行页面分割,以形成多个区块包括:
基于所述元素文本所体现的视觉特征,对所述待处理网页进行页面分割,以形成多个所述区块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710647576.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:应用特征库生成方法和装置
- 下一篇:说明书的展示方法、装置、系统和服务器