[发明专利]一种在大数据背景下的数据查询获取方法有效
申请号: | 201510650312.1 | 申请日: | 2015-10-10 |
公开(公告)号: | CN105117500B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 刘洋;李雪颖;敬皓;代林;张永宏 | 申请(专利权)人: | 成都携恩科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种互联网内容数据查询获取方法和装置,该方法包括步骤:确定在大数据背景下对互联网内容的数据查询获取目标和计划;根据确定的数据查询获取目标和计划,获取待分析的互联网内容对象;查询、获取互联网内容中的有用内容;对所述实体进行计算和汇总,确定并分析验证所查询和获取的有用互联网内容的正确性;对上述结果进行进一步的测试,并对上述方法进行修正。该方法及其装置能够迎接互联网内容的大数据时代的挑战,充分利用互联网内容信息而更有效满足主体感兴趣的互联网内容深度挖掘需求,并且提高互联网内容数据查询获取以及挖掘分析的准确性、及时性、效率和速度。 | ||
搜索关键词: | 互联网内容 数据查询 大数据 获取目标 互联网内容信息 方法和装置 查询 分析 挖掘 验证 测试 修正 挑战 | ||
【主权项】:
1.一种互联网内容数据查询获取方法,其特征在于包括以下步骤:S1:确定在大数据背景下对互联网内容的数据查询获取目标和计划;S2:根据确定的数据查询获取目标和计划,获取待分析的互联网内容对象;S3:查询、获取互联网内容中的有用内容;S4:对实体进行计算和汇总,确定并分析验证所查询和获取的有用互联网内容的正确性;以及S5:对上述结果进行进一步的测试,并对上述方法进行修正;其中查询、获取互联网内容中的有用内容包括以下步骤:S31,将互联网内容对象分成多个片段;S32,选择不同的多个片段中的部分或全部;S33,计算片段的重要程度;S34,对重要程度赋值,并根据该值对片段进行排序;S35,选择重要程度值靠前的一个或多个片段;以及S36,根据设定的撷取规则,从中撷取重要的实体;其中在步骤S33和S34中,计算片段的重要程度并对其赋值可通过以下公式获取:对于第n个片段,其重要程度值为Cn,其值在0和1之间;
其中M是片段数,α、β、γ是常数,而A=(L‑e)/(eL‑e),其中L是片段中实体的数量,而e是片段中不同实体的数量;B=mo/M,其中mo是片段中相关联的实体的数量;
其中mp是实体的标题的数量,而U是片段中实体的标题的出现次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都携恩科技有限公司,未经成都携恩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510650312.1/,转载请声明来源钻瓜专利网。
- 上一篇:网络爬虫调度方法及应用其的网络爬虫系统
- 下一篇:LED球泡灯连接散热形灯头