基于NoSQL数据库的空间大数据

李绍俊,杨海军,黄耀欢,周芹

1 中国科学院地理科学与资源研究所,北京,100101
2 环境保护部卫星环境应用中心,北京,100094
3 北京超图软件股份有限公司,北京,100015

论文来源:《武汉大学学报 · 信息科学版》第42卷 第2期2017年2月

摘要:基于关系型数据库的空间数据存储与处理是地理信息系统(geographic information system,GIS)领域的主流模式,但伴随着物联网、移动互联网、云计算及空间数据采集技术的发展,空间数据已从海量特征转变为大数据特征,对空间数据的存储和管理在数据量和处理模式上提出了新的挑战...

关键词: 空间数据库,大数据,NoSQL数据库,分布式存储

新技术的发展给空间数据存储与管理又提出了新的挑战。物联网、移动互联网和云计算技术及应用的蓬勃发展,使得空间数据在数据量和应用模式上发生了转变;此外,传感器技术的发展,使采集数据的空间分辨率和时间分辨率显著提高,导致所获取的数据规模成指数级快速上升,面对动辄以 TB(trillionbyte ),甚至PB(petabyte)计的数据,也给空间数据存储和处理带来巨大的压力。

传统的基于关系型数据库的空间数据存储与管理已经无法满足大数据存储和处理的实际应用要求,随着互联网领域云技术、非关系型数据库技术的迅速发展,各种分布式 GIS技术的研究成为研究热点。本文主要着眼于空间大数据的存储与管理,首先分析了传统集中存储模式在大数据存储方面的局限性;然后,针对互联网领域大数据的成功解决方案,研究当前主流 NoSQL数据库的特点,分析其在处理空间数据时的优势与不足;最后,针对这些需求和存在的问题,本文提出空间大数据分布式存储与处理策略,并在原型系统中进行试验验证。

1 空间数据存储技术现状

基于成熟的关系型数据库设计空间数据引擎,集中存储和管理空间数据是当前应用的主流模式。

1.1 空间数据集中存储模式及其局限性

从空间数据引擎和关系数据库与应用程序结合的紧密程度来看,可以将空间数据引擎的体系结构分为内置模式、三层结构模式和两层结构模式,这些集中存储模式很好地解决了海量空间数据存储和管理的问题。

目前,各种地理空间信息获取手段多样、数据规模巨大、更新频率快、数据应用现势性强。传统的空间数据集中,单一的存储方式不能满足大数据高并发甚至高时效的应用要求,空间数据从海量特征转变为大数据特征对存储技术的要求主要表现如下

  • 1)存储对象的变化。关系型数据库不擅长处理大量位置相关的视频、音频、图片等数据。
  • 2)存储能力的扩展。在容量上,传统关系型数据库难以维护动辄千万级别的二维表,且存储能力的横向扩展也非常困难。在性能上,由于需要维护数据的完整性、一致性,数据存储的性能受到很大影响。
  • 3)并发访问能力。关系型数据库区别传统文件的最大优势在于其对数据的多用户并发访问能力,但在云服务、互联网等应用领域,用户的并发量要求是关系型数据库无法满足的。

1.2 基于 NoSQL的空间数据单一存储模式优势与不足

在互联网领域,基于非关系型数据库的NoSQL数据库技术已经得到成功应用。从数据存储的角度来说,NoSQL数据库非常适合空间大数据的存储,但互联网领域的应用模式与 GIS领域存在一定差异,由此产生的局限性主要包括如下方面

  • 1)数据操作方式的局限性。在空间数据库中对数据的修改是常用操作,但 NoSQL数据库一般不建议对数据进行修改,不慎重的修改操作甚至会因为引起相关存储数据的大量迁移而导致性能急剧下降。
  • 2)数据查询方式的局限性。基于空间数据的各种专题图展示能力以数据库的查询能力为重要基础,需要按图层的属性信息提取数据,因此基于数据库的按字段查询、排序、统计等功能是重要基础。NoSQL数据库提供的查询能力非常有限,MongoDB也不能满足 GIS常用查询的需要。
  • 3)单一空间索引算法或技术的局限。类似关系型数据库,空间数据的索引技术是空间数据存储技术的重要研究内容,但有一定局限性。在大数据应用环境下,应该考虑把空间索引技术从算法层面提升到方法策略层面,才能解决空间数据的高效检索问题。

本文综合 NoSQL数据库和关系型数据库各自的优势,提出一种混合的空间大数据分布式存储策略,既满足大数据存储的需要,又能满足传统GIS应用的需求。

更多内容请点击下方的PDF下载