[发明专利]一种提取互联网上内容信息的方法及系统在审

专利信息
申请号: 201711435863.1 申请日: 2017-12-26
公开(公告)号: CN108170784A 公开(公告)日: 2018-06-15
发明(设计)人: 王森 申请(专利权)人: 佛山市道静科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市精英专利事务所 44242 代理人: 冯筠
地址: 528000 广东省佛山市三水区乐平镇*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 内容信息 输入指令 分类类别 内容集 提取内容 资讯 关联 关联系数 结果选择 目标网页 设置接口 用户访问 用户提供 直接获取 资讯内容 互联网 网站 显示器 发布 排序 浏览 保存 响应 展示 分析
【说明书】:

发明提供了一种提取互联网上内容信息的方法,包括如下步骤:响应于待提取内容的输入指令;识别所述输入指令,并根据识别结果选择分类类别;使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。本发明的方案,为用户提供设置接口,可以直接获取目标网页中的内容信息,并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容,此外,还可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。

技术领域

本发明涉及通信技术领域,特别是涉及一种提取互联网上内容信息的方法及系统。

背景技术

互联网发展到如今,其包含的资讯内容已经达到了海量的地步,但是这些咨询内容分散在互联网中的成千上万个站点上,给人们的浏览带来了极大的不便。在这样的情况下,互联网内容提取技术越来越受到重视,它能够主动提取资讯内容,为内容聚合、内容挖掘、内容发布等业务提供原始数据。

互联网资讯内容的提取和搜索引擎是不同的概念。搜索引擎是通过用户输入的关键字,查找与关键字存在某种关系的网页,并将这些符合要求的网页地址罗列显示给用户。

互联网资讯内容的提取是通过用户输入的策略要求,对指定站点进行分析,找到符合要求的资讯内容,并且分别提取资讯内容的标题、作者、来源、发布时间、正文、图片等信息,然后通过一定的接口将这些提取的信息交付给其它应用程序,比如发布系统等。

目前存在一种基于可扩展标记语言(XML)的资讯内容提取技术,简称为“RSS”,是一种内容发布和展现格式,只包含数据,采用XML组织而成。在RSS方式下,资讯内容网站首先必须发布自己的RSS,即提供一个XML页面,该页面展示一定数量的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等。随后,用户通过一定的方式找到自己感兴趣的RSS,进行订阅。以后每隔一段时间刷新这个RSS,得到所订阅的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等,通过点击浏览正文地址链接,用户可以跳转到发布该RSS的咨询内容站点上浏览内容原文。

为了使用户方便订阅RSS,目前还出现了很多RSS阅读工具,包括桌面工具和Web工具,它们可以保存用户订阅的RSS,根据用户设置的时间间隔,定期的获取最新资讯内容,提醒用户浏览。

但是,上述现有技术存在以下的技术问题:

1)并非所有的资讯内容站点都提供RSS。采用上述现有技术的先决条件是,资讯内容站点必须首先发布RSS,用户才有可能进行订阅。但是对于互联网海量的资讯而言,发布RSS的站点只占很少一部分,而大部分的资讯站点仍然采用传统的网页浏览方式。

2)RSS内容依赖于资讯内容站点提供方。目前,许多资讯内容站点提供的RSS并没有覆盖该站点内所有的资讯,而只是提供了一小部分内容,对于RSS没有提供的内容,通过现有技术的方式就无法获得,这就限制了用户提取信息的主动性。

3)通过RSS无法获取并保存正文内容。目前的RSS只提供正文地址链接,而不提供正文的内容,用户必须访问正文地址链接所指向的网址,才能浏览正文,因此降低了用户的浏览速度。

发明内容

为了解决上述技术问题,本发明提供了一种提取互联网上内容信息的方法,包括如下步骤:

响应于待提取内容的输入指令;

识别所述输入指令,并根据识别结果选择分类类别;

使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;

将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市道静科技有限公司,未经佛山市道静科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711435863.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top