对于大数据(Big Data),麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和价值密度低(Veracity)四大特征。
对于大数据(Big Data),麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和价值密度低(Veracity)四大特征。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。
无论是4V也好,5V也罢,大数据技术的战略意义不只是在于掌握庞大的数据信息,更多的是在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
聚焦到地理信息产业,当前,基于位置的大数据应用研究层出不穷。80%的大数据与位置相关,在地理信息领域把这部分的数据应用称作是空间大数据应用。
空间大数据有何重要特点?GIS与空间大数据有什么关系?GIS如何融入空间大数据框架?将给人类的生产及生活带来哪些改变?日前,我们专访了超图软件副总裁、研究院院长李绍俊,围绕多个话题对GIS与空间大数据进行了探讨。
空间大数据的4V特点
“空间大数据与传统GIS应用有一定区别,用传统的技术和软件已经很难将其支撑好。”李绍俊介绍,空间大数据一样呈现出四大特征:体量大、变化快、种类多、价值密度低。其中,变化快和种类多是空间大数据与传统GIS应用区别比较明显的两点。
GIS传统应用如地图、导航等,偏静态性,数据的更新呈现周期性特征,很多数据半年甚至更长时间更新一次。
而大数据尤其是时空大数据,则体现出明显的实时、动态特征,如交通领域的车辆位置数据和实时路况数据、环保领域的PM2.5监测数据、水质监测数据以及防汛抗旱领域的水位监测数据等,都需要监测装置不间断地实时采集并传输数据,并标注在空间位置上,以监控数据的实时动态变化。
传统模式下,GIS用到的数据无外乎矢量数据、影像数据等几大类。矢量数据以点、线、面为主,如水利、交通领域的道路、河流、村庄、城市数据,后来又逐步加入了遥感数据、卫星影像数据等。
现在,GIS管理的数据已经远远超出上述范畴,增加了包括三维数据、倾斜摄影数据、点云数据、车辆位置数据各种物联网数据等。GIS管理的数据种类也呈现出急剧膨胀的态势。
“淘金”空间大数据
要探讨空间大数据的应用与价值,可以从数据的信息化体系角度进行一些剖析。
数据的信息化体系,业界一般也称之为DIKW体系,是关于数据(Data)、信息(Information)、知识(Knowledge)及智慧(Wisdom)的体系,当中每一层比下一层赋予某些更深层次的特质。
第一个层面是数据,是构成信息和知识的原始材料。“数据的原始素材是二进制,是0和1的组合,难以直接辨识,需要经过层层加工才能为我们所用。”
数据提炼的第二层是信息。举例来讲,GIS数据存到计算机里都是二进制,但是它可以通过软件可视化功能去展现,把它们处理为地图展现出来。经过这一转化,人们可以看见城市、道路、河流等图形化信息。信息能够被我们理解和判读,迈出了数据价值挖掘的关键一步。
第三个层面是知识,也即找出信息与信息之间的逻辑和关联, 并加入人类的经验和判断。“举例来讲,给我们一张北京市房价分布图,如果只是简单的可视化,是信息的层面,但是找出房价高低空间分布与教育资源、医疗资源空间分布的关系,这就进入知识层面了。”
DIKW体系的第四个层面是智慧层面,智慧强调对未来决策的辅助作用。比如说,知道北京的房价分布及分布原因,就可以针对不同的人群给予不同的购房建议。
数据本身价值密度低,智慧来源于数据的积累,大数据是金矿,而不是黄金,要经过挖掘和淘洗最后才能得到黄金。
人类生活每天都要面临很多决策。以前,人类决策更多依靠人生经验和判断。而随着大数据时代的到来,人类决策会参考相关数据。“行车参考导航实施路径分析,购房也会参考周边环境、资源、交通、教育、医疗等数据资源。这都是大数据给人类生活带来的改变。”
空间大数据与GIS的关联
大数据与GIS关联非常密切。
首先,GIS本身就具有大数据的特征,其数据量非常大。例如早期的航天航空遥感数据、街景数据,以及近年来的倾斜摄影原始数据等。
其次,大数据有两个非常重要的属性:空间属性和时间属性,这两点在GIS应用中有着非常充分的体现。
大数据种类多样,给信息化带来了很大的困难。传统信息化里面非常核心的概念是数据结构和数据库。而在大数据时代,很多数据难以简单地实现结构化,它们是非结构数据,如一些非测绘活动产生的与位置相关的大数据,以及移动社交网络数据、城市摄像头数据、导航终端轨迹、可穿戴终端数据、手机信令数据等。
以摄像头数据为例,它很难结构化地存到网格里,字段识别和查询也很难。对于这些数据组织和管理其时间和空间属性非常重要。这些用GIS来管理起来会有条理得多。
再以电子商务为例,电子商务管理的数据量非常大,运用大数据做区域统计和挖掘分析,也需要GIS支撑。
在政府信息化方面,政府在做教育资源布局、医疗资源布局等规划时,更需要运用大数据和GIS的关联,做出智慧的分析。
“前面列举的例子,在大数据分析和利用等方面还处于初步阶段,整体上还是以类似于关系数据库的方式统计,基于这种统计能做的分析非常有限,很难与GIS深度结合。”李绍俊说,未来,把GIS能力融入到大数据体系是一个重要的发展方向。“GIS经过这么多年的发展,已经基于空间的分析、挖掘、统计、计算形成非常完整而科学的一整套体系。把这两个体系融合,将有效促进大数据的价值提炼。”
空间大数据与GIS结合:超图优势明显
“在业界,超图在与大数据的结合和应用具有一些典型优势”。李绍俊介绍说,大数据是一整套框架系统,涉及到几十种软件,这些软件大多在Linux开源社区最先发展起来。大数据当前最理想的、运行效果较好的运行环境也是Linux相关领域,这就要求GIS要能够原生支持Linux系统,这也是大数据和GIS结合的重要基础条件。在这方面,超图具有业界首屈一指的跨平台基础,具备天然优势。基于标准C++的核心内核,SuperMap GIS可以原生高性能地运行在Linux环境里,也可以更好更快地支持大数据运行环境。
“与Windows内核GIS平台相比,超图这方面的优势非常明显。如果说内核是基于Windows系统,需要在Spark里面重新包装或者重新开发GIS能力,超图则避免了这方面的重复开发。”李绍俊介绍。
“现在大数据最热的框架是Spark。SuperMap C++跨平台内核与Spark可以良好结合,GIS软件直接嵌入Spark 内核级运行,在此基础上诞生了SuperMap iObjects for Spark,让空间大数据挖掘更简单,可实现空间大数据可视化,分布式存储、检索、管理,以及高性能处理、挖掘与分析。”李绍俊说这方面目前已有一些初步的应用。
目前,超图在数据存储、数据可视化、数据查询分析与统计方面都可以与Spark有很好的结合,已发布一些与Spark结合的模块和GIS产品。这些模块和产品可以让用户能够更方便地将GIS处理与分析能力应用到大数据环境。
未来几年,大数据将是超图从软件研发到行业应用的核心聚焦点。“超图致力于提供的不是大数据本身,而是大数据的处理能力与处理平台,让更多人拥有处理空间大数据能力。”李绍俊表示。