[发明专利]一种基于DOM的网页关键内容抽取方法有效
申请号: | 201410840805.7 | 申请日: | 2014-12-29 |
公开(公告)号: | CN104572934A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 董博;薛妮;贺欢;郑庆华;马天 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于DOM的网页关键内容抽取方法,包括以下步骤:根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,采用DOM树解析技术,将HTML1和HTML2转化为DOM树,记为TREE1和TREE2;定义用于识别TREE1和TREE2中的关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce;基于差异度定义,设计差异度计算方法,计算TREE1中各节点的差异度,将差异度大于给定差异度阈值e的节点的路径加入Lkeycontent;设计算法对Lkeycontent进行约简,得到Lreduce;基于Lreduce将网页中的关键内容返回给用户。本发明能够在网页关键内容的位置及具体内容均未知的情况下对关键内容进行抽取,具有抽取内容完整、可读性强,抽取信息量大,以及抽取效率高的优点。 | ||
搜索关键词: | 一种 基于 dom 网页 关键 内容 抽取 方法 | ||
【主权项】:
一种基于DOM的网页关键内容抽取方法,其特征在于,包括以下步骤:1)根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,然后采用DOM解析技术将HTML1和HTML2分别转化为DOM结构,记为TREE1和TREE2;2)定义用于识别关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce,Lkeycontent和Lreduce的列表元素均为关键内容所在节点node的节点路径Pnode;3)基于步骤2)中的差异度定义,设计差异度计算方法,计算TREE1中各节点相对于TREE2的差异度,将差异度大于给定差异度阈值e的节点的节点路径加入步骤2)设计的关键内容路径列表Lkeycontent;4)设计算法对步骤3)得到的关键内容路径列表Lkeycontent进行约简,得到步骤2)设计的约简关键内容路径列表Lreduce;5)基于步骤4)得到的约简关键内容路径列表Lreduce,获取网页的关键内容,并将其返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410840805.7/,转载请声明来源钻瓜专利网。