Aplikácia vyhľadávania kolokačných vzorov na priestorové dáta


Autor: Simona BUČKOVÁ

Vedúca práce: doc. Ing. Zdena Dobešová, Ph.D.

diplomová práca | Olomouc 2022

Ciele práce

Cieľom diplomovej práce je zoznámiť sa s úlohou dolovania dát, a tým je kolokačý vzor. Následne po preštudovaní dostupnej literatúry nasadiť nástroj Colocation Analysis na tri rôzne typy dát. Vďaka ich rozdielnosti budú otestované široké možnosti nástroja a možnosti konštruovania kolokačných vzorov. V teoretickej časti bude predstavená podstata kolokačného vzoru ako data miningová úloha získavania nových, zaujímavých znalostí z dát. Následne budú spomenuté oblasti využitia možné rozšírenia a zlepšenia v budúcnosti. Ďalej bude teoretická časť obsahovať rozbor samotného nástroja, jeho parametrov a nastavení. Tie budú kľúčové v praktickej časti práce. V praktickej časti dôjde k nasadeniu spomínaného nástroja na tri rôzne dáta, či už pochádzajúce z Česka, alebo zo zahraničných krajín. V rámci prvej štúdie bude vypracovaný aj Python skrip na uľahčenie práce pri generovaní výstupných kolokačných vzorov. Rozdielnosť jednotlivých štúdií nebude len v ich zemepisných súradniciach, ale aj parametrizácii a zameraní nástroja kolokačnej analýzy. Každá z prípadových štúdií bude obsahovať aj mapové výstupy zachytávajúce významné či zaujímavé výsledky. Výsledkom práce bude návod vychádzajúci z jednej zo spracovaných štúdií. Jeho obsahom bude drobná predpríprava dát, nasadenie nástroja a konkrétnych hodnôt parametrov. V neposlednej časti bude návod obsahovať vyhodnotenie výsledných kolokačných vzorov a myšlienky, ako môže užívateľ výsledky interpretovať. Hlavným grafickým výstupom bude poster zachytávajúci postup práce a výsledky jednej z vypracovaných štúdií. Cieľom práce nie je poskytnúť konkrétne postupy a hodnoty pri použití kolokačného nástroja, ale ujasniť jeho princíp a možnosť využitia.


Metódy a postup

Použité metódy

Nájdenie vhodných hodnôt parametrov a nastavení nástroja Colocation Analysis so sebou nesie niekoľko fáz. V prvom rade ide o uvedomenie charakteru dát, atribútového naplnenia, priestorového rozsahu, existencie časového aspektu a podobne. Tieto poznatky sú kľúčové pri úprave dát a nastavení konkrétnych parametrov a metód kolokačného nástroja Colocation Analysis.

Colocation Analysis

Meria lokálne vzorce priestorových kolokácií medzi dvomi kategóriami reprezentovanými bodmi, pomocou štatistiky kolokačného kvocientu. Nástroj akceptuje len bodovú reprezentáciu. Kategória, ktorá bude analyzovaná môže byť obsiahnutá v jednom alebo v dvoch separátnych datasetoch. Je možné použiť dataset s množstvom kategórií (napríklad typy reštaurácii), ale len jedna kategória záujmu bude využitá. To isté sa udeje aj druhým datasetom, bude použitá len jedna kategória z dostupných.

Nástroj určí pre každý prvok záujmu či prvky susednej kategórie sú viac či menej prítomné v porovnaní s celkovou priestorovou distribúciou vstupných bodov. Napríklad pre každý bod kategórie A, ak je výsledná hodnota lokálneho kolokačného kvocientu (LCLQ) rovná jednej, tak to znamená, že je pravdepodobné, že kategória B je sused. Hodnota väčšia ako jeden značí, že je viac pravdepodobné, že A bude mať za suseda B. Hodnota LCLQ menšia ako jeden značí malú pravdepodobnosť, že kategória A bude mať za suseda bod z kategórie B.

Výstupom tohto nástroja je vrstva zobrazujúca každý vstupný prvok záujmu. Prvky sú kategorizované do piatich typov (typ LCLQ):

Princíp kolokačnej analýzy je demonštrovaný na nasledujúcom obrázku:

...

Postup spracovania

Diagram na obrázku popisuje postup pri diplomovej práci. Prvým a nedeliteľným krokom je rešerš literatúry, prevažne odborných článkov a webových stránok vrátane dokumentácie nástroja. Rešerš neslúži len na zoznámenie sa s tematikou práce, ale aj s možnosťami jej rozšírenia a úpravou vstupných dát pri tvorbe kolokačných vzorov. Vďaka študovaniu dostupnej literatúry je možné vybrať vhodné dátové sady, v dostupných článkoch sa častokrát spomínajú konkrétne príklady, na ktorých bol princíp použitý. Praktickou časťou sú myslené tri prípadové štúdie, na ktorých bude nasadený nástroj Colocation Analysis. Dôležitým krokom v rámci procesu je nastavenie parametrov a metód, z ktorých je následne kolokačný vzor vytvorený. Pred samotným spustením nástroja je ešte potrebné vstupné dáta mierne poupraviť s pomocou priestorových analýz či nástrojov viď Použité metódy. Súčasťou prvej štúdie je aj vytvorenie skriptu v jazyku Python, ktorý má za úlohu uľahčiť a časovo skrátiť generovanie výsledných kolokačných vrstiev. Okrem toho bude vytvorený jednotný mapový štýl pre vizualizáciu dôležitých či zaujímavých výsledkov. V závere bude napísaný návod, bude vychádzať z jednej z vytvorených prípadových štúdií. Oproti klasickému návodu či popisu nástroja bude vychádzať z konkrétneho príkladu, dáta bude možno stiahnuť a postup zopakovať. Posledným krokom je tvorba posteru a webovej stránky, informujúcich ako o priebehu, tak aj výsledkoch diplomovej práce.

...


Výsledky

Diplomová práca priniesla viacero výsledkov, tie sú zhrnuté v nasledujúcich odrážkach. Primárnym cieľom práce bolo vybrať vhodné dáta a na tie aplikovať postup vyhľadávania kolokačných vzorov v rámci nástroja Colocation Analysis v programe ArcGIS Pro. Toho bolo docielené vytvorením troch prípadových štúdii.


Prípadová štúdia – Lekárne

Podstatou bolo preskúmanie priestorového vzťahu lekární a subjektov zdravotníctva na území časti obce Brna. Bolo vytvorených osem variant:

...

Prípadová štúdia – Kriminalita

V tejto štúdií bolo cieľom preskúmať silu priestorového a časového vzťahu medzi typmi kriminálnych činov na území mesta Filadelfia. V rámci obsahu dát boli vytvorené tri varianty:

...

Prípadová štúdia – Pirátstvo

Posledná štúdia bola zameraná na preskúmanie vzťahu nepriateľov a obetí v okolí Arabského polostrova. Okrem priestorového aspektu bol skúmaný aj ten časový. Vznikli dve varianty:

...

Python skript

Pre uľahčenie práce generovania kolokačných vzorov bol využitý python skript, ktorý bol vytvorený v praktickej časti prvej prípadovej štúdie. Jeho tvorba prebiehala v editore PyScripter, ktorý je veľmi intuitívny. Podstatou skriptu je zostrojenie troch výstupných kolokačných vzorov v jednom cykle spustenia nástroja s tromi dostupnými typmi jadrových funkcií. Na konci ešte skript pridá k názvu výstupu písmeno G, B, alebo N podľa typu funkcie. V skripte bola využitá knižnica ArcPy.

...

Manuál

Jedným z výstupov diplomovej práce je aj manuál vychádzajúci z tretej prípadovej štúdie. Dôvodom voľby zostrojenia manuálu na základe výsledkov tretej štúdie je dostupnosť dát a prítomnosť časového aspektu v vstupných kategóriách. Dostupný je ZIP súbor obsahujúci súbory a zložky so vstupnými a výstupnými vrstvami, grafy a obrázky. Nedeliteľnou súčasťou je aj projekt vo formáte .aprx (ArcGIS project) pre program ArcGIS Pro. Manuál je voľnou prílohou číslo štyri a je spolu s dátami k stiahnutiu z webovej stránky dipomovovej práce. Jeho funkčnosť bola overená užívateľským testovaním v rámci predmetu Programovaní v geoinformatice.


Záver

Cieľom diplomovej práce bolo nájsť tri vhodné dátové zdroje, nasadiť nástroj Colocation Analysis a vytvoriť tri prípadové štúdie. Spomínaný nástroj vytvorí kolokačný vzor, ktorý dokáže identifikovať vzťahy medzi dátami, ktoré nemusia byť na prvý pohľad viditeľné. Ďalšou úlohou v rámci práce bolo vybrať jednu štúdiu, a na základne získaných poznatkov vytvoriť manuál pre budúcich užívateľov. Poslednými produktami bol poster a webová stránka poskytujúca informácie o priebehu a výsledkoch diplomovej práce.

Teoretická časť práce sa zaoberá súhrnom získaných informácii o problematike kolokačného vzoru. Informuje o histórii, kto a kedy začal termín používať. Aké sú typické príklady výskytu kolokácií a demonštruje možnosti na troch jednoduchých príkladoch. Taktiež diskutuje o možnom vývoji a možnostiach zlepšenia jeho identifikácie. Nedeliteľnou súčasťou rešeršnej časti je teoretický popis nástroja a jeho parametrov.

V praktickej časti bolo prvým krokom nájsť vhodné dáta pre vstup do analýzy. Cieľom bolo využitie všetkých možností parametrizácie nástroja, preto bola voľba vstupných dát veľmi dôležitá. Na základe obsahu dátových zdrojov boli skonštruované tri prípadové štúdie, ktoré sú špecifické z hľadiska témy, priestorového rozsahu a konštrukcie kolokačných vzťahov.

Výsledkom sú poznatky o možnostiach nástroja, pochopenie jeho schopností a interpretácia výsledných generovaných kolokačných vzorov. Boli vytvorené nespočetné varianty vstupných dát a skúmané ich rozdiely. Dokonca pre prvú prípadovú štúdiu bol napísaný python skript pre rýchlejšie generovanie výsledkov. V tejto štúdii šlo predovšetkým o preskúmanie možností prvých dvoch metód konštrukcie priestorových vzťahov. Generované kolokačné vzory boli analyzované podrobne z hľadiska zaradenia prvkov záujmu do kategórií kolokačnej analýzy. Taktiež boli vyšetrované možnosti jadrovej funkcie a ich vplyv na výsledné zaradenie. Ukázalo sa, že existencia duplicitných záznamov ako jedna z variant vstupných dát bola pozitívnym príspevkom analýzy. Naopak prítomnosť obalovej zóny výsledné kolokačné vzory nepodporila. Čo sa týka skúmaných metód (K najbližších susedov, Vzdialenostné pásmo, Priestorové váhy zo súboru), nie je možné povedať, ktorá metóda je vhodnejšia. Užívateľ by si mal sám zvoliť, na základe dostupných poznatkov, na základe čoho chce priestorový vzťah určiť. To súvisí aj s vhodnými hodnotami parametrov, záleží od charakteru dát.

V druhej prípadovej štúdii bolo podstatou preskúmanie časového aspektu pri tvorbe kolokačného vzoru. Boli vytvorené tri varianty, kde sa pracovalo len s metódou vzdialenostného pásma a časovou zložkou. V dvoch variantách boli vzťahy skúmané medzi jednotlivými kategóriami, avšak druhá varianta v poradí mala za úlohu analyzovať vzťah kriminálnych činov a barov. V každej zo štúdií boli na základe nájdených prieskumov vytvorené hypotézy, ktoré mali za úlohu isté predpoklady overiť. Zistením bolo, že so zvyšovaním hodnoty vzdialenosti a časového intervalu nástroj generuje vzory s vyšším počtom kolokovaných bodov. Preto boli hypotézy zamietnuté, avšak je nutné si uvedomiť, že hodnoty parametrov nie je správne stále navyšovať. Práve v takom prípade môže dôjsť ku generovaniu náhodných a falošných vzorov.

Posledná štúdia je špecifická spôsobom tvorby priestorových a časových vzťahov. Doteraz nebola využitá posledná voľba ich tvorby, a to matica priestorových váh. Tú je možné vytvoriť v samostatnom nástroji a následne vložiť do Colocation Analysis. Vo väčšine boli výsledky podobné klasickým metódam. Dokonca ponúkali aj rovnaké metódy, ako je napríklad K najbližších susedov. Ich výsledné vzory ale neboli totožné. Výhodou tejto tretej možnosti je množstvo ponúknutých metód. Na druhej strane nástroj užívateľa neinformuje, ktorá metóda je vhodná pre istý typ dát. Tým pádom, ak sú výsledky odlišné, užívateľ nedokáže určiť, ktorý vzor je vhodný pre zamietnutie či prijatie skúmanej hypotézy či predpokladu.

Z tretej štúdie bol vytvorený aj manuál, ktorý dôkladne popisuje predpracovanie dát a tvorbu kolokačných vzorov na základe všetkých dostupných metód. Veľká časť je ale venovaná práve spomínanej tretej možnosti, matici priestorových váh. Súčasťou návodu sú ako upravené, tak aj pôvodné dáta, grafy, obrázky a projekt programu ArcGIS Pro.

Cieľ diplomovej práce bol splnený, boli vytvorené tri prípadové štúdie a manuál pre budúcich používateľov nástroja. Okrem toho bol spísaný aj skript, ktorý v pláne nebol.


Summary

The Master’s thesis deals with the search for colocation patterns in spatial data. The colocation pattern is one of the tasks of data mining, it helps to gain new knowledge in data that is not obvious at first view. The task is included in the Colocation Analysis tool in the ArcGIS Pro. Input layer of the tool is allowed only the point representation, however there is the difference which category is marked as examined and which is marked as neighbouring. An important part of the whole process is the setting of parameters which boldly affects the result of the tool. The diploma includes three case studies using different data, not only in character but also in geographical location. Due to their differences, several tool settings, and ways of creating a relationship between the examined categories. In addition to GIS software, the data mining program Orange was used to create a python script in the PyScripter editor environment. The script was deployed in the ArcGIS Pro environment and its goal was to facilitate the generation of colocation patterns and reduce the time demandingness for the first case study. At the end of the diploma was written a practical guide based on the third study on pirate attacks around the Arabian Peninsula. The last step was the creation of a poster and website documenting the process and results of the thesis.


K stiahnutiu

Text práce

 

Poster

 

Manuál

 

Dáta k manuálu

 

Skript

Hore