[发明专利]一种基于视觉特征提取的网页传感信息块判决方法有效
| 申请号: | 201610740600.0 | 申请日: | 2016-08-26 |
| 公开(公告)号: | CN106326451B | 公开(公告)日: | 2019-11-08 |
| 发明(设计)人: | 李德识;刘鸣柳;陈健 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06F16/95 | 分类号: | G06F16/95;G06K9/62 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 赵丽影 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明的目的是提供一种基于视觉特征提取的网页传感信息块判决方法。首先对网页内容进行预处理,提取网页源代码的标签结构树和截图保存集合;根据预处理得到的两个集合,对网页内容进行有效分割,控制网页的分割粒度,使其最大限度匹配传感信息块的粒度大小;最后,对分割后的所有网页数据块进行视觉特征分析,提取特征向量,利用分类器实现网页传感信息块的判决。本发明可以实现网页传感信息块的自动判决,并根据判决结果进一步为网页传感信息量的有效评价提供解决方案。 | ||
| 搜索关键词: | 传感信息 网页 预处理 视觉特征提取 网页内容 判决 分割 集合 视觉特征分析 网页源代码 标签结构 判决结果 提取特征 网页数据 有效评价 自动判决 分类器 图保存 传感 向量 信息量 匹配 | ||
【主权项】:
1.一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;步骤2:自适应传感粒度的网页分割;步骤3:分割后网页数据块的视觉特征提取;步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现是否为传感信息块的判断以及信息块类型的判断;所述步骤1的网页预处理过程包括:提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息;所述步骤2的自适应传感粒度的网页分割过程包括父子节点对的取舍判断和取舍后留下节点中直系节点对之间的取舍判断;对父子节点对的取舍判断过程包括:首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域、子节点的传感特征包含情况以及视觉区域大小作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点所包含的信息内容或视觉样式表现一致,则选择保留子节点,否则舍弃子节点;将所有经过父子节点取舍判断后保留的节点再次进行结构分析,对于留存的直系节点对,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断过程根据后代节点的数量分为两类展开:当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点数量大于一时,只考虑对同层后代节点间的相似性进行分析,当同层后代节点各自所包含信息的数据类型相同或视觉样式的表现符合预设的相似度判断准则时,保留该后代节点群。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610740600.0/,转载请声明来源钻瓜专利网。





