[发明专利]一种中文新闻网页正文的自动抽取方法及装置有效

申请号：	200710304146.5	申请日：	2007-12-25
公开（公告）号：	CN101470728A	公开（公告）日：	2009-07-01
发明（设计）人：	和斌;康凯;吴於茜;杨建武	申请（专利权）人：	北京大学;北大方正集团有限公司;北京方正电子政务技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京汇泽知识产权代理有限公司	代理人：	张颖玲
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文新闻网页正文自动抽取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种中文新闻网页正文的自动抽取方法，其特征在于，该方法包括以下步骤：

A、从网页中采集超文本链接标示语言HTML源文件；

将源文件中所有的标签TAG进行匹配，将TAG以外其它地方出现的同样的特殊标记进行替换，将所有的标记修改为正确嵌套；将所有的HTML代码字符表示形式统一；

构建HTML文档树；

从构建的文档树中抽取每个包含页面数据的节点范围内的文本数据；

根据HTML文档生成页面数据列表；

对生成的页面数据列表进行细化筛选，得到纯文本列表；

B、将经过细化筛选得到的纯文本列表中的每项纯文本数据按照针对新闻正文的特征参数赋权值；

C、根据所赋的权值计算纯文本列表中每项纯文本数据的最终权重，并比较权重大小得出新闻正文。

2.根据权利要求1所述的方法，其特征在于，步骤A中所述细化筛选为：

A1、删除页面数据列表中所有多余的HTML标记；

A2、丢弃页面数据列表中除用户有特殊需要以外的超链接；

A3、根据页面数据中的节点信息过滤掉页面数据列表中多余的文本部分。

3.根据权利要求2所述的方法，其特征在于，步骤B中所述针对新闻正文的特征参数为：新闻文本长度、排除关键字、距离发布时间的远近及距离新闻标题的远近。

4.根据权利要求3所述的方法，其特征在于，步骤B所述赋权值为：

B1、分别为纯文本列表中每项纯文本数据赋一个与文本长度成正比的正的权值WEIGHT1；

B2、若排除关键字出现在纯文本数据开头，给所述纯文本数据赋一个负的权值WEIGHT2；

B3、得到新闻的标题，计算所得到的新闻标题与每项纯文本数据的距离，根据每项纯文本数据与新闻标题的距离，为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT3；

B4、根据步骤B3得到的新闻标题获得发布时间，根据每项纯文本数据距离发布时间的距离远近，为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT4。

5.根据权利要求4所述的方法，其特征在于，步骤B3中所述新闻标题的获得方法为：通过点击文字超链接进入新闻页面的父页面的超链接文字得到，或通过新闻页面文字的样式和新闻标题本身的特点得到，或通过HTML源码中节点范围中的内容得到。

6.根据权利要求5所述的方法，其特征在于，所述发布时间的获得方法为：

B41、扫描整个HTML源文件的所有时间格式，保存扫描到的所有时间格式，并记录扫描到的所有时间在该HTML源文件中的位置；

B42、根据获得的新闻标题，在HTML源文件中定位新闻标题的位置；

B43、计算所有时间与新闻标题的距离，距离最小者为新闻发布时间。

7.根据权利要求6所述的方法，其特征在于，所述步骤C为：将纯文本列表中的每项纯文本数据按照新闻正文特征参数得到的权值全部或部分相加，得到每项纯文本数据的最终权重。

8.根据权利要求7所述的方法，其特征在于，得到每项纯文本数据的最终权重后，该方法进一步包括：比较最终权重的大小，所有纯文本数据的最终权重均不相等时，或有纯文本数据的最终权重相等，但有比该相等权重更大的权重时，取最终权重最大的纯文本数据为新闻正文；有纯文本数据的最终权重相等，且没有比相等权重更大的权重时，比较最终权重相等的纯文本数据针对距离新闻标题的权值，针对距离新闻标题的权值最大的纯文本数据为新闻正文。

9.一种中文新闻网页正文的自动抽取装置，其特征在于，该装置包括：页面数据列表抽取模块、细化筛选模块、赋权值模块、新闻正文抽取模块，其中，

页面数据列表抽取模块，用于根据网页生成页面数据列表，并将该页面数据列表发送给细化筛选模块；

细化筛选模块，用于对页面数据列表抽取模块发送来的页面数据列表进行细化筛选，得到纯文本列表，并将经过细化筛选得到的纯文本列表发送给赋权值模块；

赋权值模块，用于将细化筛选模块发送来的经过细化筛选得到的纯文本列表中的每项按照特征参数赋权值，并将每项纯文本数据及其得到的权值发送给新闻正文抽取模块；

新闻正文抽取模块，用于计算每项纯文本数据的最终权重，并比较权重大小得出新闻正文；

其中，所述页面数据列表抽取模块进一步包括：采集单元、预处理单元、文档树构建单元及页面数据列表抽取单元，

采集单元，用于采集HTML源文件，并将采集到的HTML源文件发送给预处理单元；

预处理单元，用于对采集单元发送过来的HTML源文件进行预处理，并将经过预处理单元预处理得到的标准规范的HTML代码发送给文档树构建单元；

文档树构建单元，用于将预处理单元发送来的标准规范的HTML代码构建成文档树，并将构建成的文档树发送给页面数据列表抽取单元；

页面数据列表抽取单元,用于从文档树构建单元发送来的文档树中抽取每个包含页面数据的节点范围内的页面数据，并将得到的页面数据按照得到的先后顺序组织成页面数据列表，并将该页面数据列表发送给细化筛选模块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载