[发明专利]web页面内的公共块元素的结构化识别方法和装置有效
申请号: | 201310234124.1 | 申请日: | 2013-06-13 |
公开(公告)号: | CN103279563B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 张弦;张建荣;李伟刚;马镇新 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | web 页面 公共 元素 结构 识别 方法 装置 | ||
技术领域
本发明涉及移动互联网技术领域,尤其涉及一种web页面内的公共块元素的结构化识别方法和装置。
背景技术
随着移动终端的普及,例如智能手机、平板电脑等,无线转码技术日渐蓬勃发展,从资源丰富的PC页面抽取重要的数据资源是无线转码技术所要解决的主要问题。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种web页面内的公共块元素的结构化识别方法。该方法将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。
本发明的第二个目的在于提出一种web页面内的公共块元素的结构化识别装置。
为了实现上述目的,本发明第一方面实施例的web页面内的公共块元素的结构化识别方法,包括以下步骤:检测所述web页面内的元素;将所述元素与预先定义的公共块元素进行匹配识别;对匹配成功的元素进行结构化抽取。
根据本发明实施例的web页面内的公共块元素的结构化识别方法,将web页面内的元素与预先定义的公共块元素进行匹配,并且对匹配成功的元素进行结构化识别,由此将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。
为了实现上述目的,本发明第二方面实施例的web页面内的公共块元素的结构化识别装置,包括:检测模块,所述检测模块用于检测所述web页面内的元素;匹配识别模块,所述匹配模块用于将所述元素与预先定义的公共块元素进行匹配识别;抽取模块,所述识别模块用于对匹配成功的元素进行结构化抽取。
根据本发明实施例的web页面内的公共块元素的结构化识别装置,将web页面内的元素与预先定义的公共块元素进行匹配,并且对匹配成功的元素进行结构化识别,由此将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的web页面内的公共块元素的结构化识别方法的流程图;
图2(a)、(b)、(c)、(d)、(e)和(f)是栏目块的示例图;
图3是本发明实施例的对匹配成功的栏目块进行识别的流程图;
图4(a)、(b)是翻页块的示例图;
图5是本发明实施例的对匹配成功的翻页块进行识别的流程图;
图6(a)、(b)是导航块的示例图;
图7是本发明实施例的对匹配成功的主导航块进行识别的流程图;
图8是根据本发明一个实施例的web页面内的公共块元素的结构化识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310234124.1/2.html,转载请声明来源钻瓜专利网。