[发明专利]一种网页解析并采集新闻的方法在审

申请号：	201810444006.6	申请日：	2018-05-10
公开（公告）号：	CN108829729A	公开（公告）日：	2018-11-16
发明（设计）人：	梁莎莎;童晶;李天群;朱红强	申请（专利权）人：	河海大学常州校区
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	丁涛
地址：	213022 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种网页解析并采集新闻的方法，抓取多个涵盖新闻条目和新闻数据的目标网页信息；解析抓取的包含统一资源定位符URL地址的网页信息，获得多个网页解析信息；获取用户输入的关键字判断筛选上述URL信息是否符合预设标准以及用户需求；使用通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制；提取筛选后的新闻列表取新闻内容，并对新闻数据进行多层筛选。本发明一方面可以获取页面上所有可以解析的新闻条目，另一方面使用用户定义的信息挖掘条件作为限制提高了信息准确度，增强了目的性，具有高度的灵活性，扩大了发布者的获取网络新闻的渠道。
搜索关键词：	网页解析抓取新闻数据新闻条目信息挖掘筛选解析统一资源定位符采集关键字判断信息准确度目标网页挖掘算法网络新闻网页信息新闻内容用户定义用户需求预设标准通用的自定义多层链接涵盖发布配合渠道
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种网页解析并采集新闻的方法，其特征在于，包括：A1.抓取多个涵盖新闻条目和新闻数据的目标网页信息，所抓取的目标网页信息包含统一资源定位符URL地址；A2.解析步骤A1中所抓取的包含统一资源定位符URL地址的网页信息，获得多个网页解析信息，其中包涵标题、摘要、新闻图片和新闻链接信息；A3.获取用户输入的关键字判断A2中获得的网页解析信息是否符合预设标准以及用户需求；A4.使用半智能化的方式，即通过通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制，自定义的信息挖掘条件主要包括缺省设置，关键字查询；A5.提取步骤A3中符合要求的且符合步骤A4中限制条件的新闻列表并获取新闻内容，并对新闻数据进行多层筛选，包括语言筛选，条目显示在主界面中，呈现给用户。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学常州校区，未经河海大学常州校区许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810444006.6/，转载请声明来源钻瓜专利网。

上一篇：一种医学术语库的存储方法和装置
下一篇：一种对日志数据进行存储的方法、装置及其可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网页解析并采集新闻的方法在审

专利文献下载