[发明专利]一种基于视觉特征提取的网页传感信息块判决方法有效
| 申请号: | 201610740600.0 | 申请日: | 2016-08-26 |
| 公开(公告)号: | CN106326451B | 公开(公告)日: | 2019-11-08 |
| 发明(设计)人: | 李德识;刘鸣柳;陈健 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06F16/95 | 分类号: | G06F16/95;G06K9/62 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 赵丽影 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 传感信息 网页 预处理 视觉特征提取 网页内容 判决 分割 集合 视觉特征分析 网页源代码 标签结构 判决结果 提取特征 网页数据 有效评价 自动判决 分类器 图保存 传感 向量 信息量 匹配 | ||
本发明的目的是提供一种基于视觉特征提取的网页传感信息块判决方法。首先对网页内容进行预处理,提取网页源代码的标签结构树和截图保存集合;根据预处理得到的两个集合,对网页内容进行有效分割,控制网页的分割粒度,使其最大限度匹配传感信息块的粒度大小;最后,对分割后的所有网页数据块进行视觉特征分析,提取特征向量,利用分类器实现网页传感信息块的判决。本发明可以实现网页传感信息块的自动判决,并根据判决结果进一步为网页传感信息量的有效评价提供解决方案。
背景技术
当前,物联网技术正在蓬勃发展,越来越多的传感器开始进入人们的日常生活。面对数以亿计的物联网数据,如何正确搜索以期应用已经成为一个重要的研究课题。当前,大量传感器数据仍然选择以上传至因特网的方式提供给用户,因此,正确识别出包含传感器数据信息的网页内容,将成为物联网搜索工作的一项重要前提。
目前,因特网页采用了视频、图片、表格和图例等表现形式来展现传感器的数据信息。对一张未知网页而言,我们将以何种手段来识别出网页中传感器信息的存在,并准确获取所包含传感信息的相关情况,例如传感信息的类型,位置等等,这将为评价网页的传感信息量提供重要依据。传感信息自动识别准确率的保证,也将大大减轻人工判断的工作压力,可以更加有效地实现网页传感信息量的计算,对于基于网页进行的物联网传感信息搜索具有重要意义。
发明内容
为了解决上述的研究缺口,本发明提供一种基于视觉特征提取的网页传感信息块判决方法,目的在于依据网页中的DOM树结构以及视觉特征来提取网页数据块的相关特征,对数据块是否包含传感信息进行判断。
本发明的目的是这样实现的:
(1)某些非传感信息块也存在视觉变化的情况,例如某些广告信息,滚动信息等等,但他们的变化往往是已知地,在有限的几种信息之中来回播放,而传感信息往往实时采集上传,一切内容都以当前实际情况为准,因此是未知的。据此,选择一段合适长度的时间内截取多张网页图片,综合分析不同截图之间的变化情况,可以增加判断的准确性。
(2)根据不同网页数据块的截图变化信息,可以对数据的传感信息包含情况进行一定分析。通常,根据传感信息块的类型不同,往往具有不同的变化特性,例如: 由于光照等环境因素的影响,网络摄像头在一段时间内采集的两张图像往往所有像素点都会发生变化,而以表格形式表示的温度,湿度环境信息的数据内容,则会在固定位置的像素点发生明显规律性的变化。提取网页数据块的视觉信息,包括像素点变化值的大小,变化像素点的数量,位置等等,都将为传感信息的判断提供辅助依据。
(3)传感信息块通常在网页中以图表等特定形式出现,合理设计网页分割粒度,可以有效实现传感信息块的检测,同时为未来进行传感数据的提取提供更精准的输入条件。依据html标签类型,不同标签对之间的相对深度信息和视觉映射情况三个条件,可以在网页分割过程中有效适应传感信息块的分割粒度,提高分割的精度和有效性。
本发明的具体技术方案如下:
一种基于视觉特征提取的网页传感信息块判决方法,先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:
步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;
步骤2:自适应传感粒度的网页分割;
步骤3:分割后网页数据块的视觉特征提取;
步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。
所述步骤1的网页预处理过程包括:
提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610740600.0/2.html,转载请声明来源钻瓜专利网。





