[发明专利]基于视觉特征的页面查询接口抽取方法有效
申请号: | 200710019543.8 | 申请日: | 2007-01-10 |
公开(公告)号: | CN101004760A | 公开(公告)日: | 2007-07-25 |
发明(设计)人: | 崔志明;赵朋朋;方巍 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 陶海锋 |
地址: | 215006江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于视觉特征的页面查询接口抽取方法,首先获取一个包含查询接口的页面文档;采用基于视觉的文档分割方法,对上述页面文档构建视觉块树;定位查询接口区域;利用视觉特征识别标签块;再利用视觉特征完成控件块与标签块的分组,由此确定查询接口中的控件及其对应的属性标签,实现查询接口的自动抽取。本发明可以实现查询接口的自动抽取,为进行深层网页的集成搜索提供了基础;实验证明,本发明的基于视觉特征的查询接口自动抽取方法是可行的,并且具有较高的精度;将本发明应用于深层网页的集成搜索,可以提高搜索的准确度,从而较大范围地提高人们的工作效率。 | ||
搜索关键词: | 基于 视觉 特征 页面 查询 接口 抽取 方法 | ||
【主权项】:
1.一种基于视觉特征的页面查询接口抽取方法,包括下列步骤:(1)获取一个包含查询接口的页面文档;(2)采用基于视觉的文档分割方法,对上述页面文档构建视觉块树;(3)定位查询接口区域;(4)识别标签块,包括,4-1)将查询接口区域中的文本块排成一个列表,取第一个文本块归入第一个类;4-2)取下一个文本块,计算其与已存在的类之间的相似度,两个文本块之间的相似度公式为,Sim(B1,B2)=w1×wfs(B1,B2)+w2×was(B1,B2)+w3×wcs(B1,B2)+w4×wss(B1,B2)式中,wfs(B1,B2)代表B1与B2字体、背景色是否相同,相同为1,否则为0,was(B1,B2)代表B1与B2文本是否左对齐或者右对齐,对齐为1,否则为0,wcs(B1,B2)代表B1与B2是否同时出现或不出现冒号,同时为1,否则为0,wss(B1,B2)代表B1和B2文本是否在同一行,不在同一行为1,否则为0,w1为3.5~4.5,w2为1.5~2.5,w3为1.5~2.5,w4为1.5~2.5,且w1+w2+w3+w4=10;文本块与类之间的相似度为该文本块与该类中所有文本块的相似度的平均值,若文本块与某一个类的相似度大于相似度阈值,则将该文本块归入该类;若其与任一个已存在的类的相似度均不大于相似度阈值,则新建一个类,并把该文本块归入该新建的类,所述相似度阈值为6;4-3)重复步骤4-2),直至完成文本块的分类;4-4)根据显示特征,确定获得的文本块类中符合度最高的类为标签类;所述显示特征包括,标签通常不在同一行中,同一行中出现多个文本块,第一块为标签;标签通常左对齐或右对齐;标签的字体大小、颜色、背景色相同;(5)控件块与标签块的分组,5-1)建立控件块列表,删除其中的submit,reset,image控件块;5-2)对每一控件块与步骤(4)中获得的标签块进行比较,将显示于同一行的控件块与标签块归为一组;5-3)根据显示特征,将剩余的控件块和其上方最毗邻的标签块归为一组,完成控件块与标签块的分组;由此确定查询接口中的控件及其对应的属性标签,实现查询接口的自动抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710019543.8/,转载请声明来源钻瓜专利网。