Využití OLAP nadstaveb v GIS

vedoucí práce: Ing. Zdena Dobešová, Ph.D.

Technologie OLAP

Online Analytical Processing (OLAP) je jednou z technologií Business Intelligence. Pojem Business Intelligence (BI) představuje proces transformace údajů na informace a převod těchto informací na poznatky. Jinými slovy lze říci, že účelem BI je převést velké objemy nepřehledných údajů na jednoznačné poznatky, které jsou potřebné pro koncového uživatele a na jejichž základě lze potom např. učinit konkrétní opatření či rozhodnutí. Technologie BI, mezi které kromě OLAP patří i budování datových skladů (data warehouse) a dolování dat (data mining), se začali prosazovat do praxe okolo roku 1990 a v současné době jsou nedílnou součástí moderních databázových serverů. Samotný termín OLAP zavedl Dr. E. F. Codd a existuje pro něj více definic. Jednou z nich je: „OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování“.

Technologie OLAP je využívána pro analýzu velkého množství multidimenzionálních údajů, které obvykle obsahují časovou složku. Výsledkem analýzy jsou poté přehledné souhrny (sumy, průměry atd.), které mohou být přehledně prezentovány v podobě tabulek, grafů, nebo v případě geograficky vztažených údajů, map a mohou sloužit např. jako podpůrná data v procesu rozhodování či pro hledání jinak obtížně odhalitelných vztahů a závislostí.

OLAP analýza vyžaduje provedení velkého množství výpočtů a agregací, a to může být při velkém množství dat, která jsou tímto způsobem obvykle zpracovávána, časově velmi náročné. V tomto případě se z tohoto důvodu nepoužívají data uložená v běžné relační databázi, jejíž tabulky vyhovují podmínkám druhé a třetí normální formy a jsou tedy atomické a relačně svázané. Tyto databáze jsou pro tento typ analýz z hlediska efektivity nevhodné.

Namísto relační se používá multidimenzionální typ databáze, která překonává výše zmíněná omezení uložením dat do multidimenzionálních struktur. V této databázi jsou data uložena převážně v nenormalizovaných tabulkách, které lze rozdělit na tabulky faktů a dimenzí. Tyto tabulky jsou nejčastěji dvourozměrné a jsou navzájem spojeny pomocí relací. Tabulka faktů obsahuje numerické hodnoty (např. naměřené hodnoty či ceny výrobků) a v rámci databáze má obvykle největší objem dat. Její obsah se s průběhem času rozšiřuje o nově získaná data. V dimenzích jsou uvedeny údaje, které popisují, co představují numerické hodnoty v tabulce faktů. Budou-li v tabulce faktů uloženy např. výsledky nějakého měření, pak dimenze mohou být např. tři, a to kdy, kde a co bylo měřeno. Tabulky dimenzí jsou menší, data jsou v nich relativně stabilní a jejich atributy jsou obvykle uspořádány ve stromové hierarchické struktuře. Tento mechanismus se v praxi používá k tzv. „drilování“, což znamená, že je možné určit, pro jakou úroveň dimenze budou počítány souhrnné údaje globální roční výsledky či detailní denní).Tabulka faktů je s dimenzemi svázána pomocí cizích klíčů, které každou numerickou hodnotu pojí pomocí relací s primárními klíči v tabulkách dimenzí.

schéma OLAP

Analýzou a agregací údajů uvedených v tabulkách faktů a dimenzí, vznikne multidimenzionální datová struktura tzv. datová krychle či kostka. Tu si lze v multidimenzionálním datovém modelu představit jako ekvivalent tabulky v relační databázi. Jednotlivé hrany krychle představují dimenze. Hodnoty (fakta) jsou umístěny na průnicích dimenzí, přičemž jejich počet není teoreticky omezen a jednotlivé dimenze obvykle neobsahují stejné množství údajů.

datová kostka