Postup práce
1. ZÍSKÁNÍ DAT A NÁSLEDNÉ ÚPRAVY
Krajská hygienická stanice pro Olomoucký kraj nám poskytla data z epidemiologické databáze EPIDAT za období 2004-2008. Data obsahovala 23 999 záznamů, kde každý záznam obsahoval 50 atributů. Pro naši práci byly nejdůležitějšími atributy – ulice, obec, okres, místo nákazy, okres nákazy, místo onemocnění a okres onemocnění. U těchto atributů byly opravovány záznamy pomocí porovnání s celostátně platnou databází UIR-ADR (Územně identifikační registr adres).
Jelikož obě databáze nebyly ve stejné formě, bylo nutné upravit databázi UIR-ADR pomocí maker v programu MS Excel. Všechny záznamy byly převedeny na velká písmena bez diakritiky a neimportovány do programu MS Access, kde probíhaly následné úpravy obou databází.
2. ANALÝZA DATAnalýza dat byla prováděna z hlediska struktury infekcí v EPIDAT. V celém souboru dat se vyskytovalo 10 infekcí, které byly v datech označeny kódy. V bakalářské práci je pomocí grafů zobrazena struktura infekcí za období 2004-2008 a počet záznamů infekcí v EPIDAT.
3. IDENTIFIKACE CHYBIdentifikace chyb v datech je důležitou fází, která předchází tvorbě vlastního programu na odstranění chyb. Je nutné nalézt všechny možné varianty chyb. Jedná se zejména o chyby v diakritice, prázdné řádky, použití zkratek či vynechání písmene v názvu. K porovnání dat jsou zde užity, jak data z UIR-ADR, tak data z ISKN(Informační systém katastru nemovitostí) obsahujících katastrální území. Právě získání těchto dat nám pomohlo k přesné opravě obcí, kde se právě často katastrální území vyskytovaly. Srovnával jsem data v rámci Olomouckého kraje a České republiky. Poskytnutá databáze EPIDAT je v rozsahu pro Olomoucký kraj, ovšem mnoho záznamů obsahuje právě obce mimo tento kraj.
Srovnávacími atributy jsou OBEC, ULICE, MISTONAKAZ, MISTOONEM. Poslední jmenované se od sebe liší. Zatímco místo nákazy (MISTONAKAZ) je místo, kde se pacient nakazil, místo onemocnění (MISTOONEM) je místo, kde pacient nahlásil podezření z infekce. Součástí práce je několik tabulek , ve kterých je zobrazen celkový počet chybných dat, počet nulových řádku a správná data. Vše bylo prováděno u zmíněných atributů. Dále byly zmapovány nejčastější chyby vyskytující se v EPIDAT a zapsány do tabulek.
4. TVORBA PROGRAMU PRO OPRAVU EPIDATProgram pro opravu chybných dat databáze EPIDAT je stěžejní částí bakalářské práce. Je vytvořen v programu Microsoft Access, který pracuje s relačními databázemi. Program je rozdělen na 2 hlavní části. V první uživatel postupně opravuje pomocí průvodců obce, okresy a ulice. V této části také uživatel získá potřebné výstupní tabulky pro následné geokódování. V druhé části je popsán postup pro geokódování opravených dat v programu ArcGIS Destkop.
Program je řešen pomocí tabulek, dotazů, formulářů, sestav a maker. Celkem vstupují do programu 4 tabulky: EPIDAT, OBCE_CR, KU, ULICE_CR. Poslední 3 zmiňované byly vyexportovány z UIR-ADR a upraveny pro opravu.
5. VÝPOČET DEFINIČNÍCH BODŮ OBCÍTato kapitola je věnována výpočtu definičních bodů obcí pomocí definičních bodů katastrálních území. Podmětem této operace bylo získání dat definičních bodů katastrálních území od Katastrálního úřadu pro Olomoucký kraj. Z ISKN (Informační systém katastru nemovitostí) byly vyexportovat souřadnice v následujících formátech: pdf, txt, xml, rtf a postskript. Všechny data jsou v rozsahu pro Olomoucký kraj a byla vyexportována po okresech.
Vlastní výpočet definičního bodu obce probíhal prostým výpočtem aritmetického průměru jednotlivých katastrálních území. Důvod, proč provádět tuto akci je takový, že v datech EPIDAT nemůžeme jednoznačně určit, zda záznam pacienta spadá do požadované obce nebo katastrálního území. Proto se vypočítá aritmetický průměr všech katastrálních území, který bude zatížen chybou. Z hlediska přesnosti dat se nejedná o zcela ideální metodu. Musíme však mít na mysli, že epidemie se šíří mnoha směry, lidé se pohybují, cestují a přenáší epidemie do různých oblastí. Také pro prostorové analýzy je tento způsob přínosnější.
Celkem je v Olomouckém kraji 765 katastrální území spadajících pod 395 obcí. Obcí, které mají alespoň 2 katastrální území je 139. Výpočet aritmetického průměru byl proveden v programu MS Excel.
6. PRŮVODCE GEOKÓDOVÁNÍMPo opravě dat databáze EPIDAT a vyexportování výstupních tabulek můžeme zahájit proces geokódování. Geokódování je prováděno v prostředí ArcGIS Destkop. Lze provést v každé z jeho aplikací – ArcMap, ArcCatalog a ArcToolbox, kde se liší jen grafickým provedením. Součástí přílohy je i průvodce geokódováním, který v jednotlivých krocích popisuje průběh geokódování. Součástí DVD ROM je i toolbox, který si uživatel importuje do ArcToolbox. V nápovědě toolbox pro geokódování je popsán samotný průběh.Úroveň geokódování v této práci lze s přesností na ulice a obce. Adresní body nebyly poskytnuty.
Průvodce je rozdělen na 4 části:- Načtení toolbox / Add Toolbox
- Tvorba adresového lokátoru / Create Address Locator
- Vlastní geokódování / Geocode Addresses
- Kontrola a oprava chyb / Review/Rematch Addresses