地理编码系统设计与实现

郭会,宋关福,马柳青,王少华

(1 中国科学院地理科学与资源研究所,北京100101;2 中国科学院研究生院,北京 100039;3北京超图地理信息技术有限公司,北京,100085)

论文来源:中国测绘学会九届四次理事会暨2008年学术年会论文集

摘要:针对大部分的地理位置信息都采用文本方式进行描述,而非地理坐标,本文提出了地理编码关键技术和实现方法,主要包括地址标准化、地址匹配、地理编码量化等,并在SuperMap GIS平台软件中实现了中文和英文地理编码功能,实验中英文地理编码的平均误差率约为1%,证明了本文…

关键词: 地理编码;地理信息系统;地址模型;地址标准化;量化

1 地理编码概述

地理编码也称地址匹配,是指将地址映射成地理坐标的过程,提供了一种把描述成文本地址的地理位置信息转换成地理坐标的方式[1]。计算机无法通过文字叙述直接找到目标位置,无法直接获取其具体的经纬度坐标。例如,用“北京市海淀区复兴路11 号 ”来表示中国中央电视台的位置,计算机无法仅从“北京市海淀区复兴路 11 号” 获得中央电视台的具体坐标位置。地理编码可以利用地址数据库来建立地址与地理坐标空间的对应关系[2]。地理编码是各种算法程序的集合,主要采用结构化的数据模型,将各种兴趣事件或者现象的文本地址与地址数据库进行匹配[3]。

随着 GIS 在人们的生产生活中的作用越来越重要,对于根据文本地址快速、准确的查找其地理坐标的需求日益明显。在互联网服务领域,基于位置的服务被越来越多的应用,采用地理编码技术,地图搜索引擎和地图服务网站的准确度和响应速度将得到提高(如图 1);在公共服务领域,紧急情况下获得的地址往往是不完整的、甚至是不准确的,而需要计算机系统快速、准确定位;SARS 期间,有关单位每天上报的新增病例信息中,也包括描述性住址,若要进行流行病学分析,就需要获取其坐标位置[0]。通过地理编码,可以实现原有信息系统和空间信息的融合,将日常的经济、社会、人文、历史、旅游、商业等一系列城市生活中的信息空间化,用于在空间信息支持下进行空间分析和决策应用[2]。

2 地理编码设计与实现

地理编码系统流程如图 2 所示,主要包括地址标准化、地址匹配和地址量化三个关键步骤。为了实现这三个关键步骤,还需要相应的地址模型、地址词典、地址数据库以及相应的量化规则。

例如,要对“北京市海淀区复兴路 11号”地址进行地理编码,首先要进行地址切分、标准化,即转化为 “北京”(市名)、“市” (市级单位)、“海淀”(区名)、“区”(区级单位)、“复兴”(街道名)、“路”(街道单位)、 “11”(门牌号码)、“号”(门牌后缀)等结构化的、标准化的词组。然后,根据一定的地址匹配策略与GIS系统标准地址库中的地址信息进行比对,获得相匹配的地址记录集,并通过插值等方式获取一个对应的空间地理坐标值。最后,地理编码量化就是对地理编码过程的好坏程度进行数字化评价,将与“北京市海淀区复兴路 11 号”相匹配的一组地址,按照匹配程度由高到低的呈现给用户。

更多内容请查看pdf