【新经济导刊】解放地理信息

    大数据(Big Data)是将规模庞大、结构复杂、动态演变的数据进行采集、筛选、管理、搜索、分析、挖掘与表达的技术统称,是连通信息世界和知识世界的桥梁,也是数据科学(Data Science)的重要研究方向。
    大数据的概念原本出自以谷歌为代表的新一代IT公司,利用数据密集型复杂挖掘技术处理海量数据,并创造惊人价值的现象,创立之初就颇有“沙里取金”的夺人眼球的效果。
    美国政府年初宣布的“Big Data Initiative”,更是将其变成包括中国在内的全球各国炙手可热的新“掘金点”,Map Reduce迅速成为学术界、产业界反复炒作渲染的流行词汇。
    “大数据”技术来自搜索、电子商务、科学计算等领域长期与海量数据打交道所积累下的经验积累,目前尚不存在公认的基础理论和解决方案。要真正理解大数据,用好大数据,必须跳出现有概念的窠臼,一方面从底层数据科学入手,提炼和解答出数据背后的科学问题,寻找数据真正的意义和基础规律;另一方面需要遵循“从实践中来,到实践中去”的原则,在实际应用中了解大数据,研究不同领域的数据情况,明确大数据可以创造的核心价值与实现难点。

地理信息是天然大数据
    从上世纪60年代诞生之日起,海量数据问题一直是地理信息领域的“阿基里斯之踵”。究其原因,主要是两方面:
    第一,地理科学面对的是一个复杂巨系统。1986年钱学森院士在现代人类知识体系将地理科学归结为自然科学与社会科学之间的桥梁科学,研究整个地球表面同人类息息相关的大气对流层、岩石圈上部、水圈、生物圈和人类圈环境。因为上至卫星遥感数据、下至地震传感数据,以及我们常见的统计、环境、水利、资源、土地等领域数据都属于地理数据,所以地理信息技术需要处理的范围广,数据源多,数据类型多样,其数据量巨大是不言而喻的。
    第二,地球表面的信息量巨大,感知手段多样。以谷歌地图使用Landsat TM影像为例,其空间分辨率为30米,则单一时相全球完整覆盖其整体数据量约为2TB。2012年底,我国已对成功发射天绘、天链、天拓、遥感、资源、气象、海洋等多系列卫星,建立起环境与灾害监测预报小卫星星座,“嫦娥一号”对月观测也取得良好效果,而整个“十二五”期间我国计划发射百余颗卫星。以今年发射成功的资源三号为例,其几何定位精度为30米,重访周期仅5天,则一年内的基础数据量就可达数百TB。当中国遥感未来迈入国际上快鸟(Quick Bird)等高分辨率卫星达到1M分辨率的门槛后,则全球单次扫描的遥感影像结果数据量将至少超过1800TB,这对目前的数据处理能力来说是不可想象的,更别说还要考虑多波段、多时相、多产品、历史数据、中间数据、重叠区、雷达、点云数据等问题。遥感数据之外,北斗定位系统的建立、移动互联网和物联网的快速发展也会导致包括来自车辆、风力、雨量、温度、湿度等各种传感器以及个人网络活动的高频空间关联信息的数据洪流涌入,并且要求快速处理响应。

地理数据蕴含巨大价值
    随着谷歌地球等互联网电子地图的普及,目前公众已逐渐接受并熟悉了位置服务(LBS)、地图浏览查询、车辆导航等地理信息服务。地理信息已经创造了巨大的价值,但这只是诸多地理信息应用的冰山一角。
    无论是遥感数据、物联网传感器数据、地图数据还是个人网络活动数据,都可以看作是地理自然与人文环境的采样与记录,只要使用合适的分析方法就可揭示其蕴含在背后的深刻而复杂的社会自然意义。
    地理信息系统擅长于进行空间分析及与其他领域模型的关联分析。例如:
    利用遥感数据再分类的特征识别与提取技术,可快速提取地表的水域、农田、城区、建筑等,对农业估产、城市规划等应用具有重要作用; 城市传感器数据的建模、分析可用于了解区域温度、PM2.5等指标真实分布,辅助政府市民进行出行活动决策;将政区与耕地数据集进行叠加,通过格网分析即可快速统计行政区域内的耕地面积,这对于土地红线控制具有重要参考作用;空间关系分析针对当前互联网中产生的大量签到信息进行商区聚类分析,从而帮助商业选址、广告优化;网络分析更是应用广泛,从现代物流仓储选址、配货调度,到公路网,铁路网、电力网、市政管网等设施的优化管理调度,再有水系分析,管理、应急、导航路径分析、交通规则处理等等,都是网络分析的用武之地;而时空分析则可用于区域环境变化监测,快速发现土地、建筑、气温、环境、水文的变化,从而积极响应。
    目前国内地理信息产业建立了从数据生产、软件平台、应用服务的全产业链,上游有四维图新等专业图商;中游有超图软件等地理信息软件平台商;下游有天地图、百度地图、超图云服务等服务商。地理信息技术不仅已成功应用于水利环保、能源矿产、气象环保、国土房产等行业中,而且成为国家数字城市与智慧城市建设的核心平台。
    大数据时代下,地理信息产业挑战与机遇并存。不仅需要地理信息系统数据采集、筛选、存储、分析与显示技术的升级,而且要彻底扭转传统地理信息系统重视数据管理与显示,轻视数据分析的状况。大数据的意义只有将地理信息产业的核心关注转移到用户价值上之后才能得到体现,否则大数据不如小数据,因为实现同样的价值前提下前者成本只会更高。
    但是,如果在大数据浪潮下,地理信息产业可以完成一次升级,那么就不仅意味着产业链上下游的完全重构,而且可以在物联网、移动互联网、国土、环保、水利领域,分析挖掘其纷繁数据的空间意义,产生巨大的经济社会价值。

三个关键问题亟待解决 
    “问渠那得清如许,为有源头活水来。”地理信息动态庞大的数据流代表着一个巨大的价值宝藏,基于地理信息技术从多源大数据中获取对自然与人文环境的知识,从而提高政府、商业与个人生活效率的美好未来并不遥远。要实现这一目标,有几个问题亟需解决:
    一是研究地理信息适用的大数据技术。目前流行的MapReduce等技术只能看做是大数据技术示范,相比传统分布式计算、并行计算技术其适用的范围较窄,难以提高GIS中大部分运算效率,所以处理地理信息大数据必须建立自身的大数据技术体系。
    二是解放沉睡的数据。大数据产业需要各个领域的数据融合才能更真实地对世界建模分析。美国政府已依照Government 2.0建设理念发布了Data.gov 网站,截至2012年11月已提供了来自联邦政府各部门的392590个数据与工具,其中包含空间数据服务386429个;欧洲也相应提出Inspire计划。虽然中国目前也推出了北京市政府数据资源网,推动包括地理信息数据在内政府数据资源的对外服务,但是各个部门行业数据被闲置、堆积、浪费而不共享的情况仍然非常严重,严重制约了行业与应用的发展。
    三是产学研结合,跨领域合作。大数据产业要成功,就必须完成从数据到知识再到价值的整个加工流程,这就必须充分融合企业和科研院所的各自优势。
    此外,大数据分析是一个多领域知识结构化集成的结果,所以必须提倡跨领域合作。

 

原文作者:超图分布式地理信息研究室主任 黄骞