[发明专利]一种在大数据背景下的数据查询获取方法有效
申请号: | 201510650312.1 | 申请日: | 2015-10-10 |
公开(公告)号: | CN105117500B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 刘洋;李雪颖;敬皓;代林;张永宏 | 申请(专利权)人: | 成都携恩科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网内容 数据查询 大数据 获取目标 互联网内容信息 方法和装置 查询 分析 挖掘 验证 测试 修正 挑战 | ||
一种互联网内容数据查询获取方法和装置,该方法包括步骤:确定在大数据背景下对互联网内容的数据查询获取目标和计划;根据确定的数据查询获取目标和计划,获取待分析的互联网内容对象;查询、获取互联网内容中的有用内容;对所述实体进行计算和汇总,确定并分析验证所查询和获取的有用互联网内容的正确性;对上述结果进行进一步的测试,并对上述方法进行修正。该方法及其装置能够迎接互联网内容的大数据时代的挑战,充分利用互联网内容信息而更有效满足主体感兴趣的互联网内容深度挖掘需求,并且提高互联网内容数据查询获取以及挖掘分析的准确性、及时性、效率和速度。
技术领域
本发明涉及电数据信息处理领域,更具体而言,涉及一种在大数据背景下的数据查询获取方法和装置。
背景技术
随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume(大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。
另外,得益于移动互联网的发展,互联网内容数据的规模极其迅速地增长。针对互联网内容数据的研究也成为如今的热点,诸如在感兴趣的互联网内容中查询、挖掘和获取期望的结果。更具体而言,在互联网内容数据中包含有媒体的信息传播倾向,以及日益庞大的自媒体发布的信息的舆论倾向,对互联网内容数据中的互联网舆情进行查询、挖掘、分析和获取,是众多主体感兴趣或者亟待获取的。虽然如今的在互联网大数据背景下的信息查询获取以及挖掘分析的方法有很多,或多或少地能够利用该信息获得较为理想的效果。然而这些方法不能很好地适应数据海量增长的需求,无法准确、及时、高效高速地对数据进行处理。
为了能够迎接互联网内容的大数据时代的挑战,更为充分地利用互联网内容信息,更有效满足主体感兴趣的互联网内容深度挖掘需求,并且提高互联网内容数据查询获取以及挖掘分析的准确性、及时性、效率和速度,本领域中迫切需要一种能够有效解决上述技术问题的互联网内容数据查询获取方法。
发明内容
本发明的目的之一是提供一种互联网内容数据查询获取方法及其装置,通过该方法和执行该方法的装置,能够迎接互联网内容的大数据时代的挑战,充分利用互联网内容信息而更有效满足主体感兴趣的互联网内容深度挖掘需求,并且提高互联网内容数据查询获取以及挖掘分析的准确性、及时性、效率和速度。
本发明为解决上述技术问题而采取的技术方案为:一种互联网内容数据查询获取方法,包括步骤:确定在大数据背景下对互联网内容的数据查询获取目标和计划;根据确定的数据查询获取目标和计划,获取待分析的互联网内容对象;查询、获取互联网内容中的有用内容;对所述实体进行计算和汇总,确定并分析验证所查询和获取的有用互联网内容的正确性;对上述结果进行进一步的测试,并对上述方法进行修正。
根据本发明的另一个方面,其中查询、获取互联网内容中的有用内容包括以下步骤:将互联网内容对象分成多个片段;选择不同的多个片段中的部分或全部;计算片段的重要程度;对重要程度赋值,并根据该值而对片段进行排序;选择重要程度值靠前的一个或多个片段;根据设定的撷取规则,从中撷取重要的实体。将互联网内容对象分成多个片段、计算片段的重要程度可通过以下方式获取:每个片段的重要程度与它所在的位置、占用的版面面积、字体大小和字形、显示的颜色的因素有关。计算片段的重要程度并对其赋值可通过公式获取。
根据本发明的再一个方面,提供了一种执行上述方法中步骤的装置。
附图说明
在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中:
根据本发明的实施例,图1例示了一种在大数据背景下基于互联网内容的数据查询获取方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都携恩科技有限公司,未经成都携恩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510650312.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网络爬虫调度方法及应用其的网络爬虫系统
- 下一篇:LED球泡灯连接散热形灯头