Využití OLAP nadstaveb v GIS

vedoucí práce: Ing. Zdena Dobešová, Ph.D.

Výsledky

Tato práce by ve výsledku měla přinést odpověď na to, zda může technologie OLAP přinést nové možnosti do prostředí GIS a vyplatí-li se ji vůbec používat. Dá se říct, že ano. Její největší přínos se nachází ve zpracování velkého množství nepřehledných údajů do podoby lépe interpretovatelných a zpracovatelných souhrnných hodnot, které pak mohou být v prostředí GIS vizualizovány a dále analyzovány.

Dalším důležitým faktorem této problematiky je určení hranice, kdy se data již vyplatí zpracovávat pomocí OLAP analýz a kdy k tomu stačí použít pouze běžný tabulkový procesor či statistický program. Tuto hranici není možné vymezit ostře. Záleží na množství, povaze dat a hlavně na množství agregovaných údajů, které je z nich potřeba získat. Lze ale uvést několik faktů, které by měl řešitel projektu vzít v úvahu za předpokladu, že chce OLAP technologii úspěšně využít.

Fáze přípravy dat je časově velmi náročná. Například úprava dat a plnění databáze vlhkostí a teplot půdy trvala skoro 24 hodin čistého času s tím, že výsledná tabulka faktů obsahuje pouze něco přes 350 000 záznamů, přitom je v praxi běžné, že se toto číslo pohybuje v řádech desítek milionů. Jsou-li data zaznamenávána automaticky (např. nějakou měřící stanicí), pak už by se měla průběžně ukládat přímo do databáze ve formě vyžadované pro OLAP analýzu. Tento způsob zpracování dat je z časového hlediska naprosto ideální. Jsou-li naopak data získána už v nějaké podobě z externího zdroje, pak je nutné, aby řešitel vytvořil mechanismus, který automaticky provede převod dat do požadované formy. Je ale třeba předpokládat, že tato operace si při velkém množství dat vyžádá, jak je již zmíněno výše, nemalý časový prostor, který je samozřejmě přímo závislý také na výkonu počítače, jenž tuto operace provádí.

Druhým úskalím je fáze výpočtu předběžných agregací, při zpracování datové kostky před samotnou OLAP analýzou, která může ve výsledku trvat podle množství dat a agregací i několik hodin. Je-li projekt zpracováván s ohraničeným množstvím dat (projekt má přesně dané období, kdy jsou data získávána a poté jsou již jen analyzována), pak je možné tuto skutečnost zanedbat, protože tato fáze proběhne pouze jednou. Poté je datová kostka pouze analyzována, což už je relativně rychlá operace. Je-li ale třeba analyzovat kontinuálně přibývající data (např. data z automatické stanice), pak je vhodné vytvořit mechanismus, který zajistí, že tato fáze proběhne jednou za daný časový okamžik a výsledky analýzy se automaticky či manuálně uloží do samostatné databáze určené k jejich následnému porovnávání. Tímto způsobem je možné datovou kostku zpracovat například jednou denně přes noc a ráno mít již aktuální výsledky.

V současnosti se jako nejlepší varianta jeví zpracování OLAP analýz v prostředí některého z databázových serverů, jež to umožňují, vykopírování výsledků do prostředí tabulkového procesoru a jejich následné napojení na prostorová data v prostředí GIS. Odpadá nutnost zakoupení drahého profesionálního GIS nástroje, poněvadž je možné napojení dat, prostorové analýzy a kartografické výstupy zpracovat v některém z nekomerčních řešení. V případě Microsoft SQL Serveru 2005 s komponentou Analysis Services a aplikací SQL Server Business Intelligence Development Studio, jež byly použity v této práci, lze říci, že jako celek nabízejí i daleko více možností, co se týče zpracování OLAP analýz, než samotná extenze OLAP for ArcGIS, jež tento databázový server také využívá. Ta totiž nedokáže využít funkcionality programu SQL Server Business Intelligence Development Studio, který například umožňuje navíc definovat vlastní nové agregační funkce pomocí specifického skriptovacího jazyka, z výsledků odvozovat další hodnoty a mnoho dalších operací.

Je nepopiratelným faktem, že existuje prostor pro další vývoj spolupráce OLAP technologie a GIS. Velkou perspektivu má vytvoření systému kombinujícího v sobě možnosti GIS a OLAP, který by bylo možné využít pro zrychlení výpočtu náročných prostorových analýz. Tyto systémy jsou ale zatím pouze experimentální a jejich vývoj je velmi náročný. Mnohem jednodušší cestou, jak integrovat prostorový dotaz do OLAP analýzy, je použít jej před jejím zpracováním. K tomuto účelu by bylo třeba upravit stávající extenzi OLAP for ArcGIS nebo vytvořit zcela novou. Tento přístup totiž předpokládá spolupráci GIS aplikace a konkrétního databázového serveru. Nadstavba by zpracovala výsledek prostorového dotazu v GIS prostředí a předala jej databázovému serveru, který by jej použil pro úpravu dotazu zpracovávajícího OLAP analýzu (v případě Microsoft SQL Serveru 2005 by se jednalo o úpravu MDX dotazu). Výhodou je, že by nedocházelo k fyzickému zásahu do obsahu datové kostky. Dokud ale nebude takové programové vybavení k dispozici, zůstane uvedený fyzický zásah pro integraci prostorového dotazu nezbytný.