[发明专利]包装器的生成方法无效
申请号: | 200410074547.2 | 申请日: | 2004-09-08 |
公开(公告)号: | CN1588371A | 公开(公告)日: | 2005-03-02 |
发明(设计)人: | 孟小峰;谷明哲;王海燕;胡东东;于峻涛;易蕾;李宇 | 申请(专利权)人: | 孟小峰;谷明哲;王海燕;胡东东;于峻涛;易蕾;李宇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 | 代理人: | 尹振启 |
地址: | 100872*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种包装器的生成方法,将HTML文档格式解析为TML树结构;使用DTD匹配HTML文档中具体实例,计算匹配关系;得出一条能够覆盖所有HTML文档中对应实例的路径,并搜索HTML树中的子树是否具有相似的子树,如果存在,则用能够覆盖所有相似的子树的路径来代替初始路径;以得到的路径为基础生成相应的信息抽取规则;利用抽取规则在其他HTML文档中抽取需要的数据,若其他HTML文档与前述结构有差别,则重新生成抽取规则;对所有的抽取规则合并,生成能够包含上述所有抽取规则所有情况的综合的抽取规则;将抽取规则导出即生成了包装器。本发明使得包装器能够脱离包装器生成系统,真正为应用程序方便地使用。 | ||
搜索关键词: | 包装 生成 方法 | ||
【主权项】:
1、一种包装器的生成方法,包括以下步骤:(1)将Web的HTML文档格式通过XML DOM接口解析为HTML树结构;(2)使用DTD去匹配HTML文档中具体实例,计算出其所有匹配关系;(3)对于步骤(2)中得到的匹配关系,得出一条能够覆盖所有HTML文档中对应实例的路径,并搜索该路径所表示的HTML树中的子树是否具有相似地位的子树,如果存在,则用能够覆盖所有这些相似的子树的路径来代替该初始的路径;(4)以步骤(3)中得到的路径为基础生成相应的信息抽取规则;(5)利用步骤(4)中得到的抽取规则在其他Web的HTML文档中抽取需要的数据,若所述其他HTML文档与前述结构有差别,则重新生成抽取规则;(6)对所有的抽取规则合并,生成能够包含上述所有抽取规则所有情况的综合的抽取规则;(7)将步骤(6)中得到的抽取规则导出,以使该抽取规则可单独应用,即生成了所述包装器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孟小峰;谷明哲;王海燕;胡东东;于峻涛;易蕾;李宇,未经孟小峰;谷明哲;王海燕;胡东东;于峻涛;易蕾;李宇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410074547.2/,转载请声明来源钻瓜专利网。
- 上一篇:硅膜传感器芯片的封装
- 下一篇:应用于平面显示器的降低电磁干扰的方法与装置