空间数据问题与GIS的困惑

黎 舒
贵港市勘察测绘研究院 广西贵港)

【摘 要】 本文讨论了GIS空间数据的几个理论问题:空间数据概念的完整性,空间数据量,面向多维空间、动态分析的空间数据结构,以及GIS空间数据的初始化和空间尺度等。文中深入分析了认识和解决这些问题所面临的困惑,并探讨了地图代数作为一种解决思路的可行性及其若干优点。
【关键词】 GIS空间数据 多维空间 空间尺度 地图代数

  0 引 言
  回顾地理信息系统(GIS)发展的历史,可以看出:(1)其发展轨迹由地图学到地图数据库,再到计算机辅助制图,然后到今天的地球科学与信息学的合成——地球信息学,学科本身不断发展、融合其它相关学科:(2)GIS的应用领域不断拓广,应用层面也不断深入;(3)对分析功能的关注程度逐渐加强。
  GIS的功能主要体现在三个方面:数据库功能、可视化功能和分析功能。当前地理信息的管理及可视化已囊括了相当范围,包含对地理空间实体的定位、浏览、查询、管理和动态监测、属性数据的统计分析等等方面,理论较为成熟,在实践中也有了广泛的应用。然而,作为GIS区别于MIS或其它信息系统的一个本质特征,不管是理论研究还是实践应用,空间分析都是一个相对薄弱环节。对已有地理信息数据的深入分析、预测及动态过程的管理和控制等等分析功能,实质上会产生更巨大的社会、经济效益,具有更广阔的发展层次。因此,地理信息分析必将成为今后GIS研究的重点和热点。
  空间分析是地理信息分析的重要方面,相对属性数据分析来说更加复杂,学术界对此也倾注了更多的重视。但是,关于GIS空间分析的几个基础理论问题,如空间数据概念的完整性,空间数据量,GIS的基础空间尺度等,以往的研究还有所欠缺。正由于此,使得GIS的发展在目前遇到了一些困惑,或者说难以解决的瓶颈问题。本文试图对这些问题进行较为明确的阐述,并尝试给出对于这些问题的解决途径,以供讨论。
  1 地理信息空间数据
  地理信息是指与研究对象的空间地理分布有关的信息,它表示地球表层物体及环境所固有的数量、质量、分布特征,相互联系和变化规律。地理信息从哲学角度来讲,可以分为质、数、时、空四类;从地学的角度讲,可以分为空间数据和属性数据。质、数、时特征属于属性数据,空特征则属于空间数据。
  空间数据是实体本身的地理属性,包含实体本身的位置数据以及实体间的空间关系数据两部分,是地理信息的本质特征。笔者认为:以往对于地理信息的空间数据的认知不够完全,完整的空间数据概念由“位”、“邻”、“近”、“势”四类信息综合描述更为全面和妥当。对于这四类信息笔者的定义如下:
  “位”——即空间点、线、面实体的位置数据。如经纬度,大地高或笛卡儿坐标x、y、z。这一类数据是基本的、必须的。其数据量是有限的。
  “邻”——即空间点、线、面实体的邻接关系数据,它们一般均通过“公共元”或“邻接元”相互关系和区分。也即讨论比较多的“拓扑”关系数据。“邻”数据是GIS空间分析的基础,如土地利用发展变化中的叠置分析。“邻”数据量远大于“位”数据量。
  “近” ——即空间点、线、面实体间及附近空间的关系数据。如地理空间中随比例尺缩小两个实体间在符号化时的压盖、避让等关系数据。“近”数据量是巨大的,在矢量数据结构下,显式地组织是有相当困难的。
  “势”——即空间全部实体间的相互关系,它也表明空间各实体对空间任一点的影响,如空间中“场”的概念。势数据蔓延整个地理空间,无边无涯。目前看来,矢量实体目标间的“势 ”关系尚无法表达。
  显然,“近”及“势”,所描述的是对各实体本身以及实体外的空间关系,对准确刻划空间实体特征是非常必要的。这与现代科学关于空间是决定于物质及运动的观点是一致的。
  2 空间数据与GIS的发展
  在GIS发展的起源——传统的地图学时代,在纸质图上集中关注的是地理空间中各个实体的位置数据。到了计算机技术飞速发展的20世纪70年代,空间信息的传输由简单线划变成多媒体形式,虽然这些信息的表达形式和手段越来越丰富,但其功能的出发点还是传统研究GIS的角度——主要用于计算机辅助制图,把描述或表现的重点放在“位”数据和少量的关系数据上,如现行矢量型GIS平台Arc/lnfo、MGE等均构造在矢量的分层拓扑模型之上,它给出了空间的“位”、“邻”、“层”的概念,对于GIS的空间分析发展是一个巨大的飞跃:依赖“位”和“邻”数据,使得能够轻松地对空间的点、线、面进行缓冲区分析、叠置分析。人们在对GIS这种出色的特性感到兴奋的同时,逐渐又提出了更高的要求。这其中一个重要的例子即是制图综合。如“数字地球”所描述的那样,人们期望对于全地球表面的地理现象能够进行跨比例尺、多分辨率三维虚拟表示,甚至是跨时间维的动态过程,不但要求在空间上综合,还在时间上综合。这时除了“邻”数据外,必然还需要空间的“近”和“势”关系数据。
  GIS学科本身的发展历程,正说明了这样一点:要完整地描述空间实体的位置、形态、空间分布和相互关系,“邻”、“近”、“势”信息是必不可少的;应用越广越深入,对于空间关系数据的需求也就越全面。完整的空间数据概念是解决空间数据的处理、综合和分析必要的数据基础。举例说明如下:
  例如1:机助编绘问题
  单个空间实体的绘制:知道其空间位置和类别数据,即可进行符号化,即制图学中“清绘”,无论它本身的形状怎样综合,可以不涉及其它,这种绘图系统已十分普遍。
  随着比例尺的缩小,解决多个点、线、面实体间的压盖、避让需要“近”数据。在进行编绘时,对“近”数据的需要,甚至还是动态的;在人工参与的情况下,人眼不断扫描,并时刻监视它的移动和压盖来完成这一操作,这一动态过程实际上是以不断变化的“近”关系数据为基础的。由此可看出,“制图综合”这个国际难题的关键,实质上是空间数据及其组织问题。

图1 两个线状实体的“清绘”
图2 比例尺缩小后绘制两个线性要素要考虑“近”关系

  例如2:GIS网络分析问题
  空间关系数据在网络分析的各个内容上都有体现:
  (1)相应于“邻”问题,如连通分析中的“爆管分析”;
  (2)相应于“近”问题,如路径分析中的最短路径、最小生成树。对一般障碍条件下的最短路径(ESPO)求解问题,如图3所示的“迷宫导引”问题;

图3 有障碍的最短路径求解

  (3)相应于“势”问题,如著名的“货郞担”问题是要考虑网络中所有实体间的相互关系,才能做出判断,至今未解;
  (4)网络中的P中心设置、空间网络设计问题,综合考虑“近”和“势”,都是在实践中尚未解决的难题。
  随着GIS的进一步发展,作为空间分析的基础——空间的“邻”、“近”、“势”关系数据会越来越重要,理应得到人们更广泛、更深入地关注。
  3 GIS发展的困惑之一 —— 空间数据量问题
  对于描述空间的这四类数据信息,“位”、“邻”、“近”、“势”四类数据的复杂性依次增强,数据量也依次增大。“位”数据是最小的,邻近关系数据相对于位数据数据量无限增大,而“势”是描述大区域大量实体间的相互关系、相互作用,如物质流、信息流、能量流,数据极其复杂。对于空间实体的相互关系,从邻近关系来讲,首先是全形态的相互关系,对于不等权、不平衡的相互关系;有条件的相互关系;复杂约束条件下的相互关系以及优化过程,这些数据更加复杂,其数据量是惊人的。如以矢量数据结构为基础的GIS网络分析中,如果有5000个结点,结点之间的通路可能达到c50002,大约12500000条,则其空间关系数据量估算如下表。

空间位置数据
“位”
结点数据存储大约需要0.04Mb,弧段数据的位置存储需要1000Mb,总计1000.04 Mb。
空间关系数据
“邻”
结点与弧段之间的拓扑关系数据约需要25 Mb,线与线之间的邻接关系约25 Mb,共计50 Mb(因为只是点线之间的拓扑关系,所以小于位置数据)
“近”
只单纯考虑点的“近”数据。限制在整数空间,即栅格空间近似考虑,则是5000个结点缓冲区内相互关系的数据。“近”数据量与缓冲区宽度相关。若L=1,每一个结点有8个近点,为个关系量;若L=2,每一个结点又增加16个近点,则为个关系量;其余类推。
“势”
区域内所有点与这5000个结点所产生的关系量,无穷大

表1 GIS空间数据量分析

  说明:1000个结点,500000条弧段,每一个结点以坐标对((float)X,(float)y)表示,每一条弧段以点坐标串表示,平均假设每一条弧段的点串含大约10个点。每一条弧段的路长用double型表示;点、弧段间的邻接关系由一个邻接矩阵来表示(其它表示方法虽会减少存储空间,但不会产生数量级的影响)。
  由表中数据可以看出,再加上网络分析所需要的其他数据,如所有弧段的弧长及权值约需空间200Mb,这样不计“近”和“势”数据,共需要约1250兆存储空间,数据量之大可见一斑。另外,上表中对“近”数据的估算,是只考虑点的情况,如果再考虑上线、面(各含有数目不等的多个空间点)缓冲区的相互关系,那么“近”数据量远远超过“邻”数据,是无法估量的。在现有及将来可预见的有限硬件条件下,这种矢量方式的空间关系数据组织及管理起来都是有相当困难的,更不用说进行分析了。
  从长远和广义角度考虑,一个理想的、大区域的GIS应用系统要尽可能涵盖多方面的用途,这就导致GIS空间数据矢量初始化的时候不能舍弃“位”、“邻”、“近”、“势”中影响实践分析结果的任何一类空间数据。这样庞大的数据量,无论对于数据的初始化组织,还是存储管理,都是一个瓶颈,因而其应对方法已成为GIS发展的困惑之一。
  4 GIS发展困惑之二——复杂动态系统的空间数据结构
  动态GIS,即一个区域的多时刻的快照与某个或某些因素的动力学机理模拟和探索。复杂动态系统具有多因素、多过程、多周期、多系统特征。如“厄尔尼诺”、“拉尼娜”现象这样的大型地理实体动态模拟过程,它们具有很多的单纯过程和衔接过程,以及各个过程间的转换、分解和合并,相应的数据准备和组织形式必须系统地针对这种复杂对象而设置。传统的点、线、面、体组织方式较为适合静态数据,对于水、气等大型、动态的空间对象,则并不完全适宜。
  究竟应该怎样描述这种复杂、动态系统的空间数据?对于这类问题的空间分析究竟应该采用什么样的途径或方法更为合适?这也可以说是GIS发展的一大困惑。
  5 GIS发展的困惑之三——空间数据的初始化问题
  与前述的空间数据完整性和空间数据量问题紧密相关的一个问题——空间数据的初始化,也是GIS发展的瓶颈之一。空间数据的初始化,简单地说即是空间分析或处理算法对起始数据的要求和具体准备,这是大过程或连续过程中最感困难的。这主要表现在:
  1.空间信息的完整概念包含“位”、“邻”、“近”、“势”四个方面,GIS本身空间数据量非常巨大,而同时复杂过程和大过程对之要求是全面的。
  2.目前计算机按照某些确定的模式(型)处理数据得到结果数据的方式和途径,使得多数情况下,依赖于矢量结构下显式的空间数据组织,这时庞大的数据量及显式数据要求,使初始化过程难以实施招架。
  3.GIS数据空间关系数据的组织过程异常困难。原来所认为的空间数据初始化的过程仅仅包含了空间“位”数据的输入,对于“邻”数据信息则归在后续处理过程中,而“近”和“势”数据,基本上没有体现。如基于矢量数据,组织这些空间数据,则初始化的过程可能会包括以下几个处理过程:①实体“位”数据的输入;②“邻”数据的组织;③“近”和“势”数据的初始化;④“位”及其他三类关系数据的动态更新。空间中的“近”,在矢量结构中,如果通过“位”算出则效率极低,而“势”要在矢量结构中算出来极为困难,即使算得出来,工作量也难以估量。同时,实际应用中的空间数据是动态变化的,如数据更新时,仅含“位”、“邻”数据在内的拼图接边,就很耗时耗力,且经常达不到实时要求。总之,庞大的数据量,复杂而显式的结构,再加上其动态变化,地学大系统中数据的准备与组织可谓难上加难。
  简化数据准备与组织过程,达到“0”初始化,在复杂地理信息软件工程中非常关键。如果不能解决“0”初始化,就很难做到动态处理、过程衔接和实现地球信息较大综合性过程。
  6 GIS发展的困惑之四——空间尺度问题
  地理信息的分析与量度空间是分不开的。困此,采用什么样的空间尺度或空间数学基础,才能更准确、更客观地刻划现实世界,也是一个基础的理论问题。
  目前在所有的GIS系统中均使用欧氏空间,笔者认为这个量度标准不完全合理。因为地球椭球空间才是GIS的主定义空间。欧氏空间所能解决的只限于相对小的、局部的、静止的问题。地球上大部分位置上的各向异性及尺度的非线性及非欧几何特点,与目前分析和处理的各向同性以及尺度均衡的欧氏空间假设,也只在小区域、低精度下才近似相容,而与中、大区域GIS和数字地球的发展趋势矛盾将日趋激烈。这可由以下两个例子来说明:
  例如1:相邻两个国家的12海里的领海划分。解决这种问题的方法就不能够采用欧氏空间所定义的尺度空间,利用缓冲区进行划分,这很可能会导致不公平。因为欧氏空间的线性特点不能够准确刻划海域中的非线性和各向异性特点。
  例如2:“厄尔尼诺”、“拉尼娜”现象等主要全球环境问题的空间分析。类似的这种全球性环境现象显然是不适合用欧氏空间尺度来做为基础空间来进行分析的。
  在量度空间上的困惑,产生了诸如以上许许多多的实际问题。准确的量度空间,在GIS的理论和实践发展中都是十分急迫的。
  7 “地图代数”的空间数据观点
  关于空间数据问题和相关的几个困惑,解决问题的关键集中体现在:(1)适应动态系统的空间数据结构与组织方法:(2)空间分析方法要适用这种动态的数据结构。
  不管在二维、三维还是更多维空间中,点集最为灵活,可适应分解、组合等不断变化的动态数据结构。笔者对上述问题的解答思想即由点集引出。
  地图代数是以栅格点集的变换和运算解决地理信息的图形符号可视化及空间分析的新型理论和方法。地图代数对于空间数据问题的根本出发点为:
  7.1 规范的地理空间尺度
  定义了规范的地理空间。它是以标准的地球椭球体,规范的椭球体定位参数以及规范的椭球面投影(B,L)为空间数学基础,定义了大地线距离的尺度空间;在用途、区域大小、精度及分辨率综合条件下相对小的空间中,定义为欧几里德距离空间。
  7.2 完整的空间数据概念
  在地理世界中存在四种类型的空间数据:“位”、“邻”、“近”、“势”。地图代数认为地理信息的对象是实体集和空间。以栅格点集为出发点:栅格的“位”数据,其定义规范、准确、简单,同时也蕴涵了“邻”、“近”、“势”全部关系数据。
  7.3 GIS空间数据的“0”初始化
  栅格“位”数据简单、规范并蕴涵全部关系数据的基本特征,在动态数据和动态处理时不需显式地组织并存储所有的空间关系数据,即“0”初始化。
  上述三个基本点反映了地图代数的一些特点:空间尺度明确、度量准确,空间关系数据概念全面,数据结构与组织简单、规范,适合各种动态变化。这种栅格途径,在理论上是符合空间分析在当前以及可预见的将来的要求的。联系实际中当前空间分析的各主要内容,对于叠置分析、缓冲区分析,栅格结构的优势十分明显并得到了学术界的公认;对于三维分析,目前适用的途径,实质上即是栅格方法,所欠缺的主要方面就是网络分析了。传统上认为栅格结构的数据量大,不适于进行网络分析。这种看法的出发点是只注意到了“位”数据,忽视了相应的数据精度和其它特征点问题,也忽视了实体本身及相互间的关系数据量问题。栅格尽管“位”数据量似乎大,但数据精度明确,且蕴涵了全部关系数据,毋须构建,具有“0”初始化的显著优势,因而恰恰易于网络分析。下边即以实验说明。
  笔者采用地图代数的方法,实现了基于栅格点集的网络分析算法。在实验中采用了5000个结点,路径超过万条,计算两点之间的最短路径最长时间在Ls以内;如果同时计算网络所有节点间的最短距离矩阵(这是网络中心求解的基础算法),且记录最短路径经过的所有选址(网络规划)、流分析(最大流、最小费用)四个主要应用模型,并开发了网络分析实用工具。利用此工具,采用某城市自来水管网数据进行爆管分析实验,把所有的阀门、水表和水管组成的栅格网络图中,能够实时、动态地进行爆管分析,无需事先准备点线关系数据,大大减少了工程的空间数据初始化的工作量。
  上述网络分析软件包的实现和在实践中的应用结果充分验证了栅格途径在网络分析上的可行性、优越性和全面性。结合缓冲区分析、叠置分析、三维分析上的理论和实践解析,表明点集数据和结构不仅在理论而且在实践上,都能够很好地适应地球椭球空间上大型地理信息工程建设中的基础空间分析,且具有相当的优势和潜力。
  8 结
  GIS的应用不仅仅是为了空间信息的管理和可视化,更重要的是服务于分析决策。不管是可视化,分析或是决策,它们深入的发展进程表明,完整的空间信息的概念及范畴十分重要。这是一个重要的理论问题,对于实践也有相当重要的意义。GIS数据的输入和组织是现在制约GIS发展的瓶颈,现有传统的矢量途径对于复杂的空间分析所需要的数据进行初始化上已显现了它自身的局限性,必须用新的思路和方法进行解决。包括GIS的空间尺度在内,本文所提出的这些问题不仅仅是理论上的,也是GIS实践中客观存在的,需要深入、广泛地讨论,以促进GIS学科本身的发展和其更深层次的应用。

【参考文献】
[1] 胡鹏,游涟等.地图代数.武汉大学出版社,2001
[2] 胡鹏,杨传勇,李国建.GIS发展瓶颈、理论及万象GIS实践.2000,武汉大学学报(信息科学版),Vol.25No.3
[3] 郭达志等.地理信息系统基础与应用.煤炭工业出版社,1997
[4] 周培德.计算几何.清华大学出版社,1999

地址:广西南宁市建政路5号  邮编:530023  Tel:0771-5606397  Email:webmaster@digitalgx.com
广西基础地理信息中心版权所有 2005-2010 广西基础地理信息中心制作