[发明专利]基于锚定位的BBS和论坛的楼层分割方法有效
申请号: | 200910034812.7 | 申请日: | 2009-09-09 |
公开(公告)号: | CN101692225A | 公开(公告)日: | 2010-04-07 |
发明(设计)人: | 彭艳兵;韩杰;廖闻剑 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210019 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 锚定 bbs 论坛 楼层 分割 方法 | ||
所属技术领域
本发明涉及一种信息领域的网页区块分割方法,尤其是对BBS和论坛的不同楼层 信息进行分割的方法。
背景技术
在BBS和论坛里,楼层是指每一个发帖人的个人信息、帖子相关的信息和帖子相 关的操作等信息所构成的网页区块。其借鉴了现实生活中大楼楼层的概念,第一个发帖人被 称为楼主,也被称为1楼的人;2楼的发帖人的帖子被称为首发,网络语言是坐沙发;3楼的 发帖人则戏称自己是坐板凳的,因为沙发已经被2楼的人抢占了;后面的楼层则常用楼层的 信息来相互鉴别。因此如果要将BBS和论坛里的信息进行充分利用,首先需要识别里面的每 一个楼层的区块划分。
目前,针对网页区块分割方法有很多,主要用于页面框架的识别和新闻等内容的 识别。所使用的技术主要是针对DOM树或者有穷自动机来实现的,在识别这些区块后可以对 页面进行消噪、去重、内容分类和检索等。对于BBS和论坛,由于网站众多,各个网站的样 式和风格、美工的设计都千差万别,因此单纯的DOM树或有穷自动机等方法对于不同网站的 BBS或者论坛的识别比较困难,对某一个BBS或论坛识别比较高的情况下,对于另外一些BBS 或者论坛的识别率可能会比较低,这是因为其DOM树的位置、使用的技术等都可能不同。除 了手工模板的方式来针对一系列网站内容进行配置识别外,还没有见到简单有效地识别、分 割不同站点BBS和论坛网页的不同楼层信息的全自动方法。
通常的基于Web页面的BBS和论坛里,都会使用各种各样的小图片或者图标(后 面全部简称图标)来表达一定的概念、功能和设计风格。其中最常用的是每一个楼层里的各 种信息如引用、发帖人资料、给发帖人发送短信、编辑、删除等诸多功能的实现是通过点击 图标上的超级链接来实现的;有一些具有装饰、占位、分割版面或版式功能的图标也会出现 在楼层的固定位置。同一个网站内,每一层楼都使用相同的功能的时候,该功能的图标是固 定的,不同的楼(发帖)里该功能的图标也是固定的,即使帖子分布在不同的版块也一样。 因此,我们通过分析这些网页里表达某类功能的图标的位置,通过归纳来推导其所表达的楼 层信息在DOM树上的共同根节点及起始位置,完成楼层信息的识别;通过另外一个等价页面 的楼层分割的信息来进行验证。
发明的内容
为了克服不同网站BBS和论坛网页的区块划分中的楼层区块的识别和分割中的自 动化问题,本发明提出一种基于图片等锚定位的BBS和论坛的楼层分割方法,利用每一层楼 里面都会出现的固定功能的图片和函数等作为锚及其所处的位置来归纳和分割楼层信息,可 以非常准确地识别不同类型的BBS和论坛里的楼层分割信息,实现楼层识别自动化。对于每 楼都有的网页元素,包括多次出现的图标或图片装饰、或者使用JavaScript函数构造的网页 元素,称为锚。利用锚在每层楼都出现的特征,归纳出锚的集合及对应的DOM树路径的集 合,将出现次数最多的最频繁元素作为候选锚,验证这些候选锚在同一论坛其他多楼层页面 中是否也是最频繁,来确定最终的锚集合是两个多楼层页面的候选锚集合的交集。用最终的 锚集合里面的锚所在的页面DOM树路径来寻找各楼层共同的根;再在共同根的路径下面验 证锚集合中锚所在的路径以保证一个分支上没有两个相同的锚,将这些锚所在的路径最靠近 共同根的子节点记为共同根下的独立分支,符号记为A;这些独立分支在共同根下顺序排列, 对于独立分支的排列中任意第i个独立分支记为Ai;如果共同根下存在不含锚的独立分支, 将其记为B,这些独立分支在共同根下顺序排列,对于独立分支的排列中任意第i个独立分 支记为Bi,1)如果任意两个最靠近的独立分支Ai和Ai+1之间均含有其他分支集Bi,则Bi和Ai+1合起来代表一个独立的楼层,2)其他情况下,Ai和Ai+1均代表一个独立的楼层。
本发明采用如下技术方案:
一种用于BBS网页信息提取的楼层分割方法:
1、原始的页面经过楼层分割后,把页面内容分为噪音内容和有效内容,有效内容 作为信息提取的输入,过滤掉噪音内容;
2、当BBS网页模板更新时,锚也可能发生变化,利用锚归纳算法提取出新的锚;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910034812.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:运动鞋双排系带扣
- 下一篇:转植酸酶基因乳酸杆菌作为猪饲料添加剂的应用