[发明专利]车联网系统新闻正文提取方法在审
申请号: | 201611181513.2 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106776561A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 魏劲超;江涛 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 成都虹桥专利事务所(普通合伙)51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联网 系统 新闻 正文 提取 方法 | ||
技术领域
本发明涉及车联网系统,具体涉及一种车联网系统新闻正文提取方法。
背景技术
RSS订阅源是获取新闻的常见通道,但是通常由于结构限制,RSS订阅源中只会包含有新闻的摘要信息,而具体的新闻正文则需要访问RSS数据中给出的新闻链接来在浏览器端展现。在没有浏览器支持的情况下(如语音播报新闻,纯文字新闻显示等),需要有一种算法能够将页面展示的新闻内容提取成为纯文本。
发明内容
本发明所要解决的技术问题是:提出一种车联网系统新闻正文提取方法,在没有浏览器支持的情况下将页面展示的新闻内容提取成为纯文本,便于处理。
本发明解决其技术问题所采用的技术方案是:
车联网系统新闻正文提取方法,包括以下步骤:
a.对采用div布局结构的新闻页面进行分析,遍历页面的document对象,找到内部的所有div标签包裹的结构;
b.对于每个<div></div>标签组,使用标签堆栈记录标签,使用段落堆栈记录其在内的正文内容;
c.每提取一个段落将其加入正文堆栈中,直至所有段落提取完成;
d.对正文堆栈中的各段落的文字长度进行排序,其中文字长度最大的段落作为正文输出。
作为进一步优化,在步骤c中,将提取的段落加入正文堆栈之前还包括对段落进行调序操作:
对记录在段落堆栈中的正文内容按照出栈顺序向段落调序堆栈入栈;段落调序堆栈按照出栈顺序组成完整正文再向正文堆栈入栈。
作为进一步优化,步骤a中,当遍历页面的document对象发现干扰时,对干扰不予处理。
本发明的有益效果是:
1)可以依照指定的标签嵌套规则将网页新闻快速准确解析出对应的纯文本内容;
2)可以在一定程度上自动解析出一段网页标签嵌套中的非连续的正文段落并加以整合;
3)如果存在多种正文可能,本发明的算法可以按照正文的可能性大小排序并提取正文。
附图说明
图1为实施例中的车联网系统新闻正文提取方法流程图。
具体实施方式
本发明旨在提出一种车联网系统新闻正文提取方法,在没有浏览器支持的情况下将页面展示的新闻内容提取成为纯文本,便于处理。本发明方案包括以下步骤:
a.对采用div布局结构的新闻页面进行分析,遍历页面的document对象,找到内部的所有div标签包裹的结构;
b.对于每个<div></div>标签组,使用标签堆栈记录标签,使用段落堆栈记录其在内的正文内容;
c.每提取一个段落将其加入正文堆栈中,直至所有段落提取完成;
d.对正文堆栈中的各段落的文字长度进行排序,其中文字长度最大的段落作为正文输出。
基于上述方案,本发明具备以下功能:
1.可以依照指定的标签嵌套规则(div嵌套规则)将网页新闻解析出对应的纯文本内容;
解析正文内容依照div布局的页面,可以解析由多个div布局相嵌套的页面正文;
2.可以在一定程度上自动解析出一段网页标签嵌套中的非连续的正文段落并加以整合;
3.如果存在多种正文可能,算法可以按照正文的可能性大小排序:对解析出的正文内容按照文字占比(段落文字多少)排序并降噪,文字占比越大的排序越靠前,其为新闻正文的可能性越大。
实施例:
本实施例以对Sina新闻的新闻页面进行分析为例,如图1所示,其包括以下实现步骤:
1.由于采用了div布局结构,新闻正文或者需要展现的结构(比如图片等)都是使用div标签包裹的.我们将页面的document遍历出来找到内部的所有div包裹的结构.再根据对文字的判定来区分是不是备选的正文内容。
2.选定div标签后,每个div结构中有可能是一个嵌套的过程.对于每个<div></div>标签组我们需要使用堆栈来记录其内在的结构;
3.假定结构是<div><div>正文1</div><div>干扰</div><div>正文2</div></div>:
3.1当检测到第一个<div>标签时,我们就认为进入到了一个正文检测区域并且我们将这个<div>标记入栈操作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611181513.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种柬埔寨语组织机构名识别方法
- 下一篇:一种关键词提取方法和提取系统