基于数据库技术的1:10000地名数据采集项目方法

陆朝锋 廖顺华
(广西地图院 广西南宁 530023)

【摘 要】 通过广西全区1:10000地名数据采集项目的实施,总结了一套适合项目生产的可行性技术方法和工艺流程。本文重点探讨项目中数据库技术的有效开发和利用。
【关键字】 数据库技术 地名采集 方法

  1 引言
  随着社会和经济的发展,我国的自然条件和经济条件发生了很大的变化,地名数据作为国家基础空间数据的重要组成部分,急需跟上整个社会经济的发展。为此,国家开展地名数据库建设。2006年,我院承担了广西全区1:10000地名数据采集的基础测绘任务,该项目是以广西1∶5万地名成果数据为基础,采用1∶10000DRG数据作为新增地名的定位依据,并结合其他地名变更资料进行地名更新采集及数据录入。
  项目主要的采集工作分两部分,一是图面地名定位点采集和名称属性赋值,这部分工作在MAPGIS平台中参照1:10000DRG采集完成,工作量和复杂程度都不大。二是地名属性的采集,地名属性需要采集的标准数据项包括:内部码、新图号、标准名称、图上名称、汉语拼音、类别、政区代码、标准码、X坐标、Y坐标、经度、纬度,其中拼音生成是工作量最大的部分。根据以往的项目经验和本项目的实际情况,我们引入数据库技术,开发了基于数据库技术的1:1万地名采集辅助软件和检查软件。通过交互式和全自动相结合的属性赋值方式极大的提高了采集工作效率,仅汉语拼音自动生成一项就节省了大量时间;此外,检查控制的程序化为项目优质完成提供了技术保障。在项目的实施过程中,程序化生产的思想得到充分体现,数据库技术获得了成功应用,为测绘信息化发展中数字产品的标准化生产提供具有参考价值的技术思路。
  2 数据库技术
  数据库技术产生于20世纪60年代末70年代初,其主要目的是有效地管理和存取大量的数据资源。数据库是储存在计算机内的、有组织的、可共享的数据集合。数据库管理系统(Database Management System)是一种操纵和管理数据库的大型软件,是用于建立、使用和维护数据库,简称DBMS。数据库技术在计算机软件领域研究中一直是非常重要的主题,并已形成较为完整的理论体系和一大批实用系统。数据库包含关系数据库、面向对象数据库及新兴的XML数据库等多种,目前应用最广泛的是关系数据库,其中既有小型的、面向个人的桌面数据库(如Foxpro、access等),也有大型的面向企业的网络数据库系统(如sql server、Oracle等)。在测绘领域,数据库技术很早就开始得到应用,特别是在空间数据存储和GIS系统应用等方面,以ESRI的ArcSDE高效数据库引擎为代表的广泛应用,赋予了数据库应用的创新理解。
  3 地名采集的技术方法
  地名采集在基于数据库技术和程序化生产的指导思想下,制定了以1:5万地名成果数据为基本资料,经过换带、比例变换、裁切等处理,套合1∶10000DRG后对1∶5万地名采集成果数据中未采集的地名进行数据采集。地名采集技术流程见图1。

图1 1:10000地名采集流程图

  4 数据库技术应用
  4.1 数据预处理中的应用
  在项目的前期准备阶段,需要将1:5万地名采集成果数据转换成采集软件MAPGIS所接受的格式,并且保证属性数据不丢失。为此,根据两种成果数据格式设计了两种转换方案,第一种:*.DWG->*.DXF->MAPGIS,第二种:*.DBF->MIF-MAPGIS。经过试验分析,第一种方案有属性数据掉失的情况,且转换速度慢,不适合批量转换。第二种方案DBF数据库文件中已经包含X、Y坐标及其他属性,可以直接符号化。所以采用第二种方案,并基于数据库技术编写了一个转换工具读取这些信息,生成对应的MIF文件,通过这个工具我们可以成批地、快速而准确地完成数据转换工作。
  4.2 属性采集中的应用
  在项目实施过程中,考虑到采集软件MAPGIS虽然可以完成所有属性的采集工作,但是如果全部属性录入工作都在MAPGIS中进行的话,采集的效率将会比较低,最终影响项目的整个进度,而且属性数据的质量不好检查和控制。为了提高采集效率和有效控制质量,开发了一个基于数据库技术的地名采集和检查的辅助软件,软件综合考虑了资料情况、采集环境、数据检查、成果输出等方面的需求,界面简捷、功能实用,软件环境界面见图2。此外还整合了汉语拼音库,实现自动化汉字标注。软件主要功能包括内部码生成、统赋新图号、根据名称自动生成相应汉语拼音、元数据生成等。对于关键功能拼音生成,软件不仅根据拼音数据库自动生成拼音,而且还对其中的多音字、元音字给出提示,便于进行修改。

图2 1:10000地名采集软件环境

  软件中的主要作业流程:读取MAPGIS采集数据中的属性数据->属性数据编辑、检查->用编辑好的属性数据去更新MAPGIS采集的数据。
  4.3 质量控制中的应用
  在检查方面,检查分图面检查和属性检查,图面检查只能人工检查,无法用程序加以辅助;但是在属性检查方面可以利用开发的检查工具辅助检查,不仅提高检查的效率,而且还提高了检查的准确性。检查工具充分发挥数据库技术的优势,通过将属性数据读入数据库中,利用数据库的数据检索功能构造简单查询语句,可以方便的检查出错误信息,如:检查政区代码、新图号、汉语拼音是否为空的条件语句为:政区代码 ='' or 新图号 ='' or (汉语拼音1 ='' or (标准名称2 <>'' and 汉语拼音2 ='') or (标准名称3 <>'' and 汉语拼音3 =''));检查是否“弄”的拼音改成“long”的条件语句:(标准名称1 like '%弄%' and 汉语拼音1 not like '%long%') or (标准名称2 like '%弄%' and 汉语拼音2 not like '%long%') or (标准名称3 like '%弄%' and 汉语拼音3 not like '%long%')。
  4.4 数据整理中的应用
  在成果数据整理方面,数据库技术也得到很好的应用。由于项目基础资料中的平面坐标系统既有1954北京坐标系的又有1980西安坐标系的,而项目成果要求的数学基础均为1980西安坐标系。这就需要将1954北京坐标系的图幅转换至1980西安坐标系,然后将这些经过坐标系转换的数据与原来的1980西安坐标系数据接边和拼合,再利用80系标准图廓进行裁剪,得到符合数学基础要求的数据。在这处理过程中,如果使用人工一幅一幅进行裁剪,势必会影响到效率。为了满足批量数据整理的要求,采用数据库临时存储技术,将要裁剪图幅涉及到的周边图幅的所有数据读入数据库中,再用80图廓进行裁剪,这样比较好地解决了不同坐标系之间的数据整理问题。
  5 结束语
  通过1:10000地名数据采集项目的实施,在项目生产和检查等方面积累许多数据库技术应用经验,特别是采用基于数据库的地名采集生产方法,使得地名成果在管理、更新维护、应用等方面更具有优势。作为地名成果推广应用的有效探索,我们进一步研究了各种比例尺基础地理数据中地名数据的有效更新方法,同时也对地名数据库中地名符号化及打印出图做了技术研究,取得初步效果。

地址:广西南宁市建政路5号  邮编:530023  Tel:0771-5606397  Email:webmaster@digitalgx.com
广西基础地理信息中心版权所有 2005-2010 广西基础地理信息中心制作