多边形统计数据空间分析的不确定性研究 ——以北京市海淀区人口普查数据为例

张小虎,钟耳顺,王少华,张珣,张济

(1. 中国科学院地理科学与资源研究所,北京100101;2. 中国科学院大学,北京100049; 3. 国家林业局林产工业规划设计院,北京100714)

论文来源:地球信息科学学报

摘要:普查数据是地理学空间分析的重要数据源。由于受到数据与计算机处理能力的限制,以往的研究对普查数据空间分析的不确定性未给予足够重视,也未形成成熟的研究方法。

关键词: 多边形统计数据;空间分析;不确定性;可塑面积单元问题

1引言

普查数据通常是以行政区为单元,通过普查、抽样等方式逐级汇总得到的典型统计型数据[1]。在地理信息系统中,该数据一般是作为行政区多边形对象的属性数据进行存储。因此,本文将该类统计数据称为多边形统计数据,其在地理学及社会科学研究中较易获得,可得到广泛使用。该类数据的空间分析较好地揭示了研究对象的空间分布特征[2-3],可服务于政府及企业的战略决策工作[4]。因此,对于多边形统计数据空间分析的研究方法、评价手段及应用模式的分析,具有重要的研究意义和科学价值。本文以多边形统计数据空间分析的不确定性,研究多边形统计数据的可塑面积单元问题效应对空间分析结果的影响模式,从而对多边形统计数据空间分析做出评价。

多边形数据空间分析通常以空间统计学为基础,很大程度上与空间数据的描述与探索有关。由于数据本身不满足经典统计学独立性的假设,许多情况下,经典假设检验方法不适用多边形统计数据空间分析[5]。经过多年的研究,多边形统计数据的空间分析方法逐渐发展成为描述性、空间统计的两大类核心分析方法[6]。这两类方法均依赖多边形的距离、方向、形态特征、邻近关系等多边形自身的空间特征。其中,描述性方法通常为对多边形的属性数据表进行简单的单元统计,如总值、标准差、均值等,及对属性数据的可视化直观表达。在空间统计分析中,统计区(多边形)组成统计区集合P,P中每一个统计区pi 具有统计指标zi;P 的邻接矩阵W= {wij}表达了多边形之间的邻接关系。wij = 1表示统计区pi与统计区pj相邻,wij = 0表示统计区pi与统计区pj不相邻。多边形统计数据的空间统计分析就是基于多边形邻接关系W及相应统计指标的统计分析方法,具体有空间自相关分析与空间集聚分析等。

在地理学及社会科学研究中,不确定性(uncer-tainty)是一个抽象概念,其含义比误差(error)更为广泛[7-8],既包含随机误差、系统误差及粗差,也包含数值概念上的误差。多边形统计数据是现实的一个抽象表达,不可避免地存在对所表达的现实特性的不确定性。这种不确定性可以由多边形空间位置的不确定性、拓扑不确定性,及属性的不确定性等引起[9],也可以由空间分析采用的分析方法导致[10]。对多边形统计数据而言,针对空间数据质量本身,以多边形顶点位置坐标精度误差去衡量多边形空间误差及相应的属性数据与实测数据不相符的情况。然而,在实际应用中,多边形统计数据作为唯一可靠的研究数据,研究中其不确定性却往往被忽视,主要原因[7]:(1)缺乏数据。在多数研究中,多边形统计数据是唯一可获得的研究数据,因此,以往的研究只能采用不同等级行政区划数据对该问题进行一般的说明。(2)计算机处理能力的限制。

对多边形统计数据空间不确定性研究需要很强的图形及数据处理能力,需要相应的计算机硬件和软件的支持。(3)对于多边形统计数据空间分析的不确定性研究尚未形成成熟的方法。因此,本文提出了一种基于多边形空间特征的多边形统计数据空间分析不确定性研究方案。

更多内容请查看pdf