[发明专利]一种基于互联网大数据的宏观经济分析方法及系统在审
申请号: | 201810013720.X | 申请日: | 2018-01-08 |
公开(公告)号: | CN108170826A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 李亮涛;丁荣荣;彭翔;张炎红 | 申请(专利权)人: | 北京国信宏数科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 王清亮 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 数据源 预置 分析方法及系统 查询条件 量化数据 去重 互联网 数据库 情绪关键词 接收用户 实时分析 统计结果 统计维度 图表形式 业务选择 用户配置 有效解决 分析 预设 字段 申请 抽取 取出 保存 统计 | ||
本申请提供了一种基于互联网大数据的宏观经济分析方法及系统,所述方法包括:接收用户根据待分析的宏观经济业务选择的数据源及其查询条件;从所述数据源中获取符合查询条件的数据并保存在本地数据库中;根据所述数据源对应的预置去重字段,对保存在本地数据库中的数据进行去重处理;根据所述宏观经济业务的预置类别情绪关键词,从去重处理后的数据的预置字段中抽取对应的量化数据信息;根据用户配置的统计维度,对抽取出的量化数据信息中的各分析指标进行统计;以预设图表形式展现各分析指标的统计结果。本申请通过上述手段,有效解决了现有技术不能基于互联网大数据对宏观经济进行实时分析的问题。
技术领域
本申请涉及数据处理技术领域,特别地,涉及一种基于互联网大数据的宏观经济分析方法及系统。
背景技术
大数据是全新的产业形态,具有前向依赖效应低、而后向拉动效应高的重 要特点。一方面,发展大数据产业不像传统产业那样需要大量配套产业体系和 基础设施作为先决条件。另一方面,大数据正在影响和改变传统生产方式和经 济运行机制,促进社会分工协作和生产组织方式的集约和创新。
传统的数据监测、分析、统计方式面对海量增长的各种数据,呈现出滞后、缺失等问题,在一定程度上与社会公众的期望存在差距,制约政府部门对宏观经济运行情况及时精准地监测与分析。目前,管理部门在对宏观经济运行情况进行监测、分析以及趋势预测时,大多使用的是传统的官方统计数据。然而,随着大数据技术的迅猛发展,官方统计数据面临着前所未有的重大挑战。首先,统计数据具有一定的滞后性。其次,统计数据源广泛性较为欠缺,海量的非结构化数据、电子商务数据、电子政务以及搜索引擎数据并未被包含在内。
针对互联网中的数量类的结构化数据信息,目前已经有初步尝试,如麻省理工学院的“10亿价格项目”,研究团队利用网络抓取技术获取网上购物交易数据,收集了70个国家的300个零售商共500万种在线商品的价格,建立了通胀指数的日发布系统,滞后期仅有3天,几乎可以实现通货膨胀指数的实时预测。但数量类的结构化数据信息在互联网数据中仅占非常小的部分,应用范围非常小,对于如何利用互联网中占比更大的非结构化信息分析宏观经济指标,现有技术还处于理论研究阶段;正如《国外理论动态》2015年第1期刊出的文章“大数据与宏观经济分析研究综述”所记载的,对于如何从文本、图片、视频等数据信息中挖掘出结构化、数量化的信息,只是提出了可以通过线性模型、决策树、支持向量机、人工神经网络、自组织映射网络、遗传算法等机器学习算法挖掘数据的构想,但没有给出如何从互联网非结构化数据中提取出结构化数量信息的具体实现方式,更无从以此为基础宏观对经济指标进行分析。
发明内容
本申请提供一种基于互联网大数据的宏观经济分析方法及系统,用于解决现有技术不能基于互联网大数据对宏观经济进行实时分析的问题。
本申请公开的一种基于互联网大数据的宏观经济分析方法,包括:接收用户根据待分析的宏观经济业务选择的数据源及其查询条件;从所述数据源中获取符合查询条件的数据并保存在本地数据库中;根据所述数据源对应的预置去重字段,对保存在本地数据库中的数据进行去重处理;根据所述宏观经济业务的预置类别情绪关键词,从去重处理后的数据的预置字段中抽取对应的量化数据信息;根据用户配置的统计维度,对抽取出的量化数据信息中的各分析指标进行统计;以预设图表形式展现各分析指标的统计结果。
优选地,执行所述方法的系统配置有任务管理程序;所述从所述数据源中获取符合查询条件的数据并保存在本地数据库中,具体包括:根据数据源的来源渠道将数据获取任务切分为多个子任务,并将所述子任务添加到任务队列;任务管理程序从所述任务队列调度子任务,由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程。
优选地,查询条件为所述数据源的标题和/或正文中包括有用户设置的检索关键词;切分数据获取任务的参数还包括预设的日期范围;在将数据获取任务切分为多个子任务之前还包括:依据所述查询条件预览每个数据源中符合条件的数据;根据所述数据源中符合查询条件的数据量生成数据获取预估时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国信宏数科技有限责任公司,未经北京国信宏数科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810013720.X/2.html,转载请声明来源钻瓜专利网。