[发明专利]时空地理空间可视化的分析方法在审
申请号: | 201710042528.9 | 申请日: | 2017-01-20 |
公开(公告)号: | CN107045532A | 公开(公告)日: | 2017-08-15 |
发明(设计)人: | 付琨;许光銮;王洋;孙显;李峰;张云燕;梁月仙;陈自岩 | 申请(专利权)人: | 中国科学院电子学研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 方丁一 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时空 地理 空间 可视化 分析 方法 | ||
技术领域
本发明涉及时空数据处理领域,特别涉及一种时空地理空间可视化的分析方法,其主要用于面向开放事件。
背景技术
随着大数据时代的到来,每天都有大量的文本时空数据产生,数据量大,杂乱零散、且多数为非结构化数据,人们淹没在数据的海洋之中。如何从这些文本数据中提取出用户感兴趣的信息,并充分利用其时空属性,对事件进行分析是急需解决的问题。
事件抽取是从非结构化文本中抽取出事件信息,以结构化的形式呈现,是一种有效的数据组织方式。传统的事件抽取采用两步策略,包括事件类别的识别与分类以及事件元素的识别,但其往往局限于特定领域,且依赖于已标注文本。随着Twitter和微博等开放领域文本的异军突起,Ritter等人提出了开放领域的事件抽取方法,采用链式结构,容易产生层叠错误的问题。Wei Feng等在Twitter数据流中,采用hashtag聚类的方法,从不用的时空粒度抽取出事件信息,这种方法考虑了事件的时间属性和空间属性,但未综合考虑事件的时空属性,且依赖于监督学习框架,难以应用到大规模未标注的文本中。
发明内容
鉴于现有方案存在的问题,为了克服上述现有技术方案的不足,本发明提出了一种时空地理空间可视化分析方法。
根据本发明的一个方面,提供了一种时空地理空间可视化的分析方法,包括以下步骤:对未标注的源数据进行预处理,获得时间实体、地点实体及事件词;将时间、地理经度、地理纬度作为三个维度构建数据立方体;将选定时空粒度下的事件词聚类为至少一个事件;以及构建时空地理信息可视化系统。
从上述技术方案可以看出,本发明具有以下有益效果:
本发明针对非结构化未标注大规模文本,不局限于专门领域,不依赖于监督学习框架,能够高效率地提取出高质量的某一时间某一地点事件聚类结果,可以提取不同时、空粒度下的事件,建立交互性良好的时空地理信息可视化系统;
对文本数据进行预处理,获得事件词,用于表征描述事件;
建立数据立方体,用于方便提取不同时空粒度下的事件词,充分利用事件的时空属性;
对事件词进行近邻聚类,分成多个事件,提高事件抽取的效率及准确性;
构建可视化系统,实现了事件可视化在时空粒度上的可视化。
附图说明
图1是本发明实施例时空地理空间可视化分析方法的流程图;
图2是图1中源数据预处理的流程图;
图3是图1中构建数据立方体的流程图;
图4是图3中数据立方体构建的示意图;
图5是图3中数据立方体时空纬度上的处理示意图;
图6是是图1中对事件词进行聚类的流程图;
图7为可视化事件抽取结构的示例图。
具体实施方式
本发明某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本发明的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本发明满足适用的法律要求。
在本说明书中,下述用于描述本发明原理的各种实施例只是说明,不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不悖离本发明的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁 起见,省略了公知功能和结构的描述。此外,贯穿附图,相同附图标记用于相似功能和操作。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明实施例提供了一种时空地理空间可视化分析方法,其主要用于面向开放事件,充分利用事件的时空属性,提高事件抽取的效率和准确性,进而能够进行更为有效的可视分析。
图1示出了本发明实施例时空地理空间可视化分析方法的流程图,请参照图1,本方法实施例中的时空地理空间可视化分析方法具体包括:
S1、获取源数据;
具体的,本实例针对开放事件数据,采用网络爬虫在网络上抓取开放领域的文件,例如选取了6个月,12万条的文本数据,每个文件中包含大量数据,形成未标注的文件集;
S2、对未标注的源数据进行预处理,具体包括以下步骤,如图2所示:
S21、对未标注文件中的数据进行分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电子学研究所,未经中国科学院电子学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710042528.9/2.html,转载请声明来源钻瓜专利网。