论文来源:新经济导刊
摘要:海量数据问题一直是地理信息领域的 “阿基里斯之踵”
关键词: 海量数据
大数据(Big Data)是将规模庞大、结构复杂、动态演变的数据进行采集、筛选、管理、搜索、分析、挖掘与表达的技术统称,是连通信息世界和知识世界的桥梁,也是数据科学(Data Science)的重要研究方向。
大数据的概念原本出自以谷歌为代表的新一代IT 公司,利用数据密集型复杂挖掘技术处理海量数据,并创造惊人价值的现象,创立之初就颇有“沙里取金”的夺人眼球的效果。
美国政府年初宣布的“Big Data Initiative”,更是将其变成包括中国在内的全球各国炙手可热的新 “掘金点”,Map Reduce 迅速成为学术界、产业界反复炒作渲染的流行词汇。
“大数据”技术来自搜索、电子商务、科学计算等领域长期与海量数据打交道所积累下的经验积累,目前尚不存在公认的基础理论和解决方案。要真正理解大数据,用好大数据,必须跳出现有概念的窠臼,一方面从底层数据科学入手,提炼和解答出数据背后的科学问题,寻找数据真正的意义和基础规律;另一方面需要遵循“从实践中来,到实践中去”的原则,在实际应用中了解大数据,研究不同领域的数据情况,明确大数据可以创造的核心价值与实现难点。
地理信息是天然大数据
从上世纪 60 年代诞生之日起,海量数据问题一直是地理信息领域的“阿基里斯之踵”。究其原因,主要是两方面:
第一,地理科学面对的是一个复杂巨系统。 1986 年钱学森院士在现代人类知识体系将地理科学归结为自然科学与社会科学之间的桥梁科学,研究整个地球表面同人类息息相关的大气对流层、岩石圈上部、水圈、生物圈和人类圈环境。因为上至卫星遥感数据、下至地震传感数据,以及我们常见的统计、环境、水利、资源、土地等领域数据都属于地理数据,所以地理信息技术需要处理的范围广,数据源多,数据类型多样,其数据量巨大是不言而喻的。
第二,地球表面的信息量巨大,感知手段多样。以谷歌地图使用 Landsat TM 影像为例,其空间分辨率为 30 米,则单一时相全球完整覆盖其整体数据量约为 2TB。2012 年底,我国已对成功发射天绘、天链、天拓、遥感、资源、气象、海洋等多系列卫星,建立起环境与灾害监测预报小卫星星座,“嫦娥一号”对月观测也取得良好效果,而整个“十二五” 期间我国计划发射百余颗卫星。
更多内容请查看pdf