淺析GIS多源數據集成模式論文
[摘要] 地理信息系統的迅速發(fā)展和廣泛應用導致了空間數據多源性的產(chǎn)生,為數據綜合利用和數據共享帶來(lái)不便。本文探討空間數據多源性的產(chǎn)生和表現,指出多數據格式是多源空間數據集成的瓶頸;分析和評價(jià)了多源空間數據集成的三種模式,并展望了多源數據集成的發(fā)展方向。
一、多數據格式是多源空間數據集成的瓶頸
1、空間數據多源性的產(chǎn)生和表現
空間數據多源性的產(chǎn)生和表現主要可以概括為以下幾個(gè)層次:
。1)多語(yǔ)義性
地理信息指的是地理系統中各種信息,由于地理系統的研究對象的多種類(lèi)特點(diǎn)決定了地理信息的多語(yǔ)義性。對于同一個(gè)地理信息單元(feature),在現實(shí)世界中其幾何特征是一致的,但是卻對應著(zhù)多種語(yǔ)義,如地理位置、海拔高度、氣候、地貌、土壤等自然地理特征;同時(shí)也包括經(jīng)濟社會(huì )信息,如行政區界限、人口、產(chǎn)量等。一個(gè)GIS研究的決不會(huì )是一個(gè)孤立的地理語(yǔ)義,但不同系統解決問(wèn)題的側重點(diǎn)也有所不同,因而會(huì )存在語(yǔ)義分異問(wèn)題。
。2)多時(shí)空性和多尺度
GIS數據具有很強的時(shí)空特性。一個(gè)GIS系統中的數據源既有同一時(shí)間不同空間的數據系列;也有同一空間不同時(shí)間序列的數據。不僅如此,GIS會(huì )根據系統需要而采用不同尺度對地理空間進(jìn)行表達,不同的觀(guān)察尺度具有不同的比例尺和不同的精度。GIS數據集成包括不同時(shí)空和不同尺度數據源的集成。
。3)獲取手段多源性
獲取地理空間的數據的方法有多種多樣,包括來(lái)自現有系統、圖表、遙感手段、GPS手段、統計調查、實(shí)地勘測等。這些不同手段獲得的數據其存儲格式及提取和處理手段都各不相同。
。4)存儲格式多源性
GIS數據不僅表達空間實(shí)體(真實(shí)體或者虛擬實(shí)體)的位置和幾何形狀,同時(shí)也記錄空間實(shí)體對應的屬性,這就決定了GIS數據源包含有圖形數據(又稱(chēng)空間數據)和屬性數據兩部分。圖形數據又可以分為柵格格式和矢量格式兩類(lèi)。傳統的GIS一般將屬性數據放在關(guān)系數據庫中,而將圖形數據存放在專(zhuān)門(mén)的圖形文件中。不同的GIS軟件采取不同的文件存儲格式。
2、多源空間數據集成的迫切性
隨著(zhù)Internet網(wǎng)絡(luò )的飛速發(fā)展和普及,信息共享已經(jīng)成為一種必然的要求。地理信息也不例外,隨著(zhù)信息技術(shù)以及GIS自身的發(fā)展,GIS已經(jīng)從純粹地學(xué)技術(shù)系統的圈子跳了出來(lái),正和IT行業(yè)完全融合,人們對空間信息的需求也越來(lái)越多。GIS要進(jìn)一步發(fā)展,必須完全融入大型MIS(管理信息系統)中。1998年美國副總統戈爾提出數字地球的概念,更是將地理信息技術(shù)推到了最前沿。然而地理信息要真正實(shí)現共享,必須解決地理信息數據多格式、多數據庫集成等瓶頸問(wèn)題。隨著(zhù)技術(shù)發(fā)展,GIS已經(jīng)逐步走向完全以純關(guān)系數據存儲和管理空間數據的發(fā)展道路,這為GIS完全和MIS無(wú)縫集成邁出了重要的一步。但因為GIS處理的數據對象是空間對象,有很強的時(shí)空特性,獲取數據的手段也復雜多樣,這就形成多種格式的原始數據,再加上GIS應用系統很長(cháng)一段時(shí)間處于以具體項目為中心孤立發(fā)展狀態(tài)中,很多GIS軟件都有自己的數據格式,這使得GIS的數據共享問(wèn)題變得尤為突出。
空間數據作為數據類(lèi)型的一種,同普通數據一樣需要走過(guò)從分散到統一的過(guò)程。在計算機的發(fā)展過(guò)程中,先是數據去適應系統,每一個(gè)系統都為傾向于擁有自己的數據格式;隨著(zhù)數據量的增多,數據庫系統應運而生;隨著(zhù)時(shí)代的發(fā)展,信息共享的需求越來(lái)越多,不同數據庫之間的數據交換成了瓶頸;SQL(標準結構化查詢(xún)語(yǔ)言)以及ODBC的出現為這一難題提供了比較滿(mǎn)意的解決方案。但是空間數據如何引進(jìn)這種思想,或者說(shuō)將空間數據也納進(jìn)標準組織和標準協(xié)議進(jìn)行規范和管理,從而使空間數據共享成為現實(shí)。
二、 GIS多源數據集成模式比較
由于地理信息系統的圖形數據格式各異,給信息共享帶來(lái)了極大的不便,解決多格式數據源集成一直是近年來(lái)GIS應用系統開(kāi)發(fā)中需要解決的重要問(wèn)題。目前,實(shí)現多源數據集成的方式大致有三種,即:數據格式轉換模式、數據互操作模式、直接數據訪(fǎng)問(wèn)模式。
1 、數據格式轉換模式
格式轉換模式是傳統GIS 數據集成方法(圖1)。在這種模式下,其他數據格式經(jīng)專(zhuān)門(mén)的數據轉換程序進(jìn)行格式轉換后,復制到當前系統中的數據庫或文件中。這是目前GIS系統數據集成的主要辦法。目前得到公認的幾種重要的空間數據格式有:ESRI公司的Arc/Info Coverage、ArcShape Files、E00格式;AutoDesk的DXF格式和DWG格式;MapInfo的MIF格式;Intergraph的dgn格式等等。 數據轉換模式主要存在的問(wèn)題是:
。1)由于缺乏對空間對象統一的描述方法,從而使得不同數據格式描述空間對象時(shí)采用的數據模型不同,因而轉換后不能完全準確表達源數據的信息。
。2)這種模式需要將數據統一起來(lái),違背了數據分布和獨立性的原則;如果數據來(lái)源是多個(gè)代理或企業(yè)單位,這種方法需要所有權的轉讓等問(wèn)題。 美國國家空間數據協(xié)會(huì )(NSDI)確定制定了統一的空間數據格式規范SDTS(Spatial Data Transformation Standard),包括幾何坐標、投影、拓撲關(guān)系、屬性數據、數據字典,也包括柵格格式和矢量格式等不同的空間數據格式的轉換標準。許多軟件利用SDTS提供了標準的空間數據交換格式。目前,ESRI在A(yíng)RC/INFO中提供了SDTSIMPORT以及SDTSEXPORT模塊,Intergraph公司在MGE產(chǎn)品系列中也支持SDTS矢量格式。SDTS在一定程度上解決了不同數據格式之間缺乏統一的空間對象描述基礎的問(wèn)題。但SDTS目前還很不完善,還不能完全概括空間對象的不同描述方法,并且還不能統一為各個(gè)層次以及從不同應用領(lǐng)域為空間數據轉換提供統一的標準;并且SDTS沒(méi)有為數據的集中和分布式處理提供解決方案,所有的`數據仍需要經(jīng)過(guò)格式轉換復制到系統中,不能自動(dòng)同步更新。
2 、數據互操作模式
數據互操作模式是OpenGIS consortium (OGC) 制定的規范。OGC是為了發(fā)展開(kāi)放式地理數據系統、研究地學(xué)空間信息標準化以及處理方法的一個(gè)非盈利組織。GIS互操作是指在異構數據庫和分布計算的情況下,GIS用戶(hù)在相互理解的基礎上,能透明地獲取所需的信息。OGC為數據互操作制定了統一的規范,從而使得一個(gè)系統同時(shí)支持不同的空間數據格式成為可能。根據OGC頒布的規范,可以把提供數據源的軟件稱(chēng)為數據服務(wù)器(Data Servers),把使用數據的軟件稱(chēng)為數據客戶(hù)(Data Clients),數據客戶(hù)使用某種數據的過(guò)程就是發(fā)出數據請求,由數據服務(wù)器提供服務(wù)的過(guò)程,其最終目的是使數據客戶(hù)能讀取任意數據服務(wù)器提供的空間數據。OGC規范基于OMG的CORBA、Microsoft的OLE/COM以及SQL等,為實(shí)現不同平臺間服務(wù)器和客戶(hù)端之間數據請求和服務(wù)提供了統一的協(xié)議。OGC規范正得到OMG和ISO的承認,從而逐漸成為一種國際標準,將被越來(lái)越多的GIS軟件以及研究者所接受和采納。目前,還沒(méi)有商業(yè)化GIS軟件完全支持這一規范。 數據互操作為多源數據集成提供了嶄新的思路和規范。它將GIS帶入了開(kāi)放式的時(shí)代,從而為空間數據集中式管理和分布存儲與共享提供了操作的依據。OGC標準將計算機軟件領(lǐng)域的非空間數據處理標準成功地應用到空間數據上。但是OGC標準更多考慮到采用了OpenGIS協(xié)議的空間數據服務(wù)軟件和空間數據客戶(hù)軟件,對于那些歷史存在的大量非OpenGIS標準的空間數據格式的處理辦法還缺乏標準的規范。而從目前來(lái)看,非OpenGIS標準的空間數據格式仍然占據已有數據的主體。
數據互操作規范為多源數據集成帶來(lái)了新的模式,但這一模式在應用中存在一定局限性:首先,為真正實(shí)現各種格式數據之間的互操作,需要每個(gè)每種格式的宿主軟件都按照著(zhù)統一的規范實(shí)現數據訪(fǎng)問(wèn)接口,在一定時(shí)期內還不現實(shí);其次,一個(gè)軟
件訪(fǎng)問(wèn)其他軟件的數據格式時(shí)是通過(guò)數據服務(wù)器實(shí)現的,這個(gè)數據服務(wù)器實(shí)際上就是被訪(fǎng)問(wèn)數據格式的宿主軟件,也就是說(shuō),用戶(hù)必須同時(shí)擁有這兩個(gè)GIS軟件,并且同時(shí)運行,才能完成數據互操作過(guò)程。
3、直接數據訪(fǎng)問(wèn)模式
顧名思義,直接數據訪(fǎng)問(wèn)指在一個(gè)GIS軟件中實(shí)現對其他軟件數據格式的直接訪(fǎng)問(wèn),用戶(hù)可以使用單個(gè)GIS軟件存取多種數據格式。直接數據訪(fǎng)問(wèn)不僅避免了繁的數據轉換,而且在一個(gè)GIS軟件中訪(fǎng)問(wèn)某種軟件的數據格式不要求用戶(hù)擁有該數據格式的宿主軟件,更不需要該軟件運行。直接數據訪(fǎng)問(wèn)提供了一種更為經(jīng)濟實(shí)用的多源數據集成模式。
目前使用直接數據訪(fǎng)問(wèn)模式實(shí)現多源數據集成的GIS軟件主要有兩個(gè),即: Intergraph 推出的GeoMedia系列軟件和中國科學(xué)院地理信息產(chǎn)業(yè)發(fā)展中心研制的SuperMap。GeoMedia實(shí)現了對大多數GIS/CAD軟件數據格式的直接訪(fǎng)問(wèn),包括:MGE、Arc/Info、Frame、Oracle Spatial、SQL Server、Access MDB等(圖2)。SuperMap 2.0則提供了存取SQL Server、Oracle Spatial、ESRI SDE、Access MDB、SuperMap SDB文件等的能力,在以后的版本中將逐步支持對Arc/Info Coverage、AutoCAD DWG、MicroStation DGN、ArcView等數據格式的直接訪(fǎng)問(wèn)。
三、多源空間數據格式集成的展望
1 、文件方式和數據庫方式
傳統的空間數據往往采用文件方式,隨著(zhù)技術(shù)的進(jìn)步,逐漸將屬性數據移植到數據庫平臺上;隨著(zhù)技術(shù)發(fā)展,圖形數據也可以和屬性數據一起存放在關(guān)系數據庫中。文件方式對數據管理安全性較差,存在著(zhù)屬性和圖形分開(kāi)管理的問(wèn)題,不適合網(wǎng)絡(luò )共享發(fā)展的需要;數據庫方式則實(shí)現了空間數據和屬性數據一體化存儲和管理,便于開(kāi)發(fā)兩層、三層甚至多層網(wǎng)絡(luò )應用系統。從發(fā)展趨勢來(lái)看,純關(guān)系數據庫方案取代文件方案是發(fā)展的必然趨勢,這也是IT發(fā)展的主流趨勢。隨著(zhù)對信息量需求的增大以及信息需求種類(lèi)增多,數據倉庫的建立,將是GIS文件系統向數據庫系統發(fā)展的主流。
2 、OpenGIS、SDTS與DLG/F
OpenGIS是目前的主流標準,但SDTS并不會(huì )停滯不前,相反筆者認為SDTS將會(huì )與OpenGIS走向一體化。SDTS 可以為OpenGIS提供一個(gè)轉換和存取空間數據的標準,該標準是不依賴(lài)任何一種特定GIS軟件格式的,該標準中利用頭文件描述格式的方式使得數據服務(wù)者不必專(zhuān)門(mén)提供格式說(shuō)明,而數據客戶(hù)也不必專(zhuān)門(mén)學(xué)習該格式,只需讀取SDTS頭文件就可獲得數據服務(wù)者提供的數據格式。筆者認為利用SDTS做數據標準,利用OGC作數據互操作的標準(例如空間SQL標準),簡(jiǎn)單地說(shuō)就是如果說(shuō)SDTS提供了數據格式的頭文件,而OGC標準則提供了讀寫(xiě)這個(gè)頭文件的標準方法。如果再采用數據庫作后臺,利用空間數據引擎,空間數據引擎按照SDTS存取空間數據,按照OGC標準對客戶(hù)軟件提供操作接口,這將是空間數據集成的理想解決方案。 USGS還提供了一種稱(chēng)作DLG/F的標準,該標準設計了空間數據在數據庫中的動(dòng)態(tài)存儲結構,利用該結構可以將拓撲關(guān)系動(dòng)態(tài)記錄下來(lái),同時(shí)可以讓用戶(hù)添加自定義的空間數據類(lèi)型。怎樣利用DLG/F完善SDTS和OpenGIS也將是OpenGIS以及SDTS發(fā)展的方向。
3 、統一空間實(shí)體編碼
多源空間數據據格式集成還有一個(gè)很重要的方面就是如何處理不同數據庫對空間實(shí)體采用的編碼方式不同的問(wèn)題。從理論上來(lái)說(shuō),一個(gè)系統對同一空間實(shí)體的編碼應該是唯一的,實(shí)際上由于不同領(lǐng)域從不同視角對同一空間實(shí)體編碼并不一樣,甚至會(huì )出現不同空間實(shí)體具有相同編碼的情況,這些編碼放在同一系統中,就會(huì )出現空間實(shí)體標識的嚴重問(wèn)題。從目前來(lái)看,OpenGIS和SDTS都是基于地理特征(Feature)定義空間實(shí)體的,但都還不能真正提供一個(gè)通用的空間實(shí)體編碼體系。
參考文獻
。.On spatial database integration, Thomas Devogele ,Geographical Information Science, 1998,12(4)
。.Issues and prospects for the next generation of the spatial data transfer standard (SDTS), DAVID ARCTUR, DAVID HAIR,GEORGE TIMSON, etc, Geographical Information Science, 1998,12(4)
。.Towards integrated geographic information processing,DAVID J.ABEL, BENG CHIN COOI, KIAN-LEE TAN etc, Geographical Information Science, 1998,12(4)
。.A framework for the integration of geographical information systems and modelbase management , DAVID A.BENNETT, Geographical Information Science, 1997,11(4)
。. Overcoming the semantic and other barriers to GIS interoperability , YASER BISHR, Geographical Information Science, 1998,12(4)