[发明专利]一种基于时间串的论坛页面信息自动抽取方法及系统在审

申请号：	201410429698.9	申请日：	2014-08-27
公开（公告）号：	CN104268148A	公开（公告）日：	2015-01-07
发明（设计）人：	程学旗;郗家贞;郭岩;刘悦;俞晓明;赵岭	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国;梁挥
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时间论坛页面信息自动抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络信息抽取方法，特别是一种基于时间串的论坛帖子自动抽取方法及系统。

背景技术

互联网成为了许多人生活中不可或缺的一部分，而且内容越来越丰富，然而，随着内容的丰富、规模的扩大、用户数量的急剧增长，信息爆炸给人们也带来了相当大的困扰——人们无法快速、准确地获取自己想要得到的信息，这一方面是由于数据量大，找到想要的信息犹如大海捞针；另一方面，还因为各种网页噪音(广告等)、垃圾网页等一些用户不想看到的信息在泛滥，针对前者，目前比较好的解决方式是搜索引擎和个性化推荐引擎，搜索引擎可以让用户自定义的去查找用户自己想要的信息，而个性化推荐引擎试图自动寻找用户大概想要的内容，对用户进行推送。目前通常的搜索引擎、个性化推荐引擎采用的是对网页文本进行处理、分析(分词、建索引、排序等)，而如果不对网页中的噪音信息进行处理，最终系统搜索或推荐出的内容质量也会大打折扣。

为了解决上面这些问题，网络信息抽取技术应需求而生。该技术的目标是将网页中的信息提取并表示为结构化的、计算机可以存储和理解的格式。信息抽取的质量直接影响系统的效果，因此，网络信息抽取研究具有重大的应用价值。

目前，按照是否需要模板，可以将信息抽取方法分为模板相关与模板无关的方法。模板相关的方法是指通过人工标注或者自动算法寻找到网页中关键信息的位置，并记录为模板，以便用来抽取结构相似的页面，这种方式在抽取时速度快，缺点是如果采用人工标注的话会耗费大量的人力，模板的维护代价高，可扩展性差；模板无关的方法是指对于每个待处理的页面，通过自动化的抽取方法获取网页的关键信息，一般是基于网页的结构特征或者文本特征，这种方法的优点是全自动化，无需人工标注，也没有模板维护的代价，但是抽取效率以及准确率偏低。

对于论坛类页面，目前模板无关的方法一般是基于页面结构的相似性，寻找重复结构，从而找到页面中记录所在的位置。但是对于主楼与跟贴结构不同的论坛页面(比如天涯论坛)，会导致主楼信息很容易丢失；对于单楼页面(只有一个帖子)，由于不符合算法中关于页面存在相似、重复结构的假设，导致抽取效果很差。

自动化抽取方法在对自动化要求较高的应用场合中发挥着重要作用，在实时信息采集系统中，单楼页面的比例较高，导致自动抽取方式抽取效果较差。

发明专利“一种多记录网页的信息抽取系统及方法”，该发明涉及一种多记录网页的信息抽取系统及方法，该系统包括：一个网页预处理模块，用于将HTML网页转换为XHTML网页，并过滤网页中用来渲染显示效果的标签，然后根据标签的嵌套结构，构建文档次序树；一个记录区域定位模块，用于接收文档次序树，并利用横向层次分析法在文档次序树中定位出记录区域的位置；一个记录分隔符识别模块，用于从记录区域中找到记录之间的分隔符并进行存储；以及一个记录输出模块，用于将记录区域里所有文本节点按层次顺序遍历输出，在碰到分隔符时输出分隔线，得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取，抽取速度快、准确度高，通用性强，适用范围广。该发明通过建立文档次序树、并结合分隔符来抽取多记录内容，与本发明基于时间串寻找记录的方式完全不同。

发明专利“一种Web论坛信息抽取系统”，该发明公开了一种Web论坛信息抽取系统，该系统包括如下模块：网页采集模块，用于根据用户指定的论坛站点和相应的版块自动下载论坛网页；网页解析模块，用于对网页内容进行清洗，形成网页的文档对象模型(DOM)以便信息抽取算法的实施；在线抽取模块，用于根据论坛网页的布局结构特点对网页中的指定信息进行抽取；数据库存储模块，用于将所抽取的内容存储在数据库系统中以便进行其它的应用；该发明的能对互联网上多种论坛的指定信息进行自动抽取，且有很高的准确率。但该发明通过计算结构相似性，并通过阈值来寻找记录，与本发明基于时间串的方式差别很大。

发明专利“一种自动抽取论坛数据的方法”，该发明公开了一种从论坛帖子中抽取数据的方法，按照如下步骤：a根据论坛网页结构的特点，用网页结构聚类的方法，识别网页帖子页面；b根据网页帖子的簇的相似子树的数量变化，计算该簇内所有同路径下的相似子树的熵，来定位条目信息；c构建帖子页面可视字串的特征集，利用统计特征对特征集进行划分，然后利用先验知识对具体的可视字串代表的含义，并生成模板；d利用模板解析网页，完成最终的提取。但该发明通过计算网页帖子的簇的相似子树的数量变化来定位记录，并生成相应模板，与本发明基于时间串的方式差别很大。

发明内容

针对现有技术的不足，本发明提出一种基于时间串的论坛帖子自动抽取方法及系统。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410429698.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于时间串的论坛页面信息自动抽取方法及系统在审

专利文献下载