Metody a postup práce
Nejdůležitějším bodem v postupu práce je získání vhodných dat pro testování podobnosti. Je zapotřebí mít data v takovém množství, aby bylo možné z nich tvořit relevantní závěry. Proto bylo třeba data vybrat pečlivě a promyslet jejich možnosti. Pro algoritmizaci je třeba mít data co nejjednodušší (tedy vlastnost, která do podobnosti vstupuje, musí být zjistitelná), zároveň taková, aby mělo cenu je testovat a nebylo na první pohled zřejmé, zda jsi jsou či nejsou podobná.
Proto byla vybrána rastrová data pozemkového katastru. Jsou to mapy monochromatické, přehledné, jednoduché, ale přesto nelze na první pohled jednoznačně určit, které jsi jsou více či méně podobné. Bylo vybráno 8 mapových listů rozložených po celé republice (k.ú.: Klatovy, Brod nad Dyjí, Boží Dar, Ostroměř, Jablonecké Paseky, Jakubovice, Jiřetín pod Jedlovou, Dobrotice). Abychom dodorželi "potřebné množství" dat, byly z těchto vstupních mapových listů vybrány "reprezentativní vzorky" pro aplikaci podobnosti.
Těmito vzorky jsou rastrové výřezy o velikosti 100x100 pixelů přímo z původních rastrů. Byly cíleně vybrány číslice od 0 do 9 a 3 typy znaků zastupující druh pozemku (lesní půda, pastvina a sad). Každý znak byl na mapě nalezen a vybrán celkem 5x. Znaky byly vybírány podle toho, čemu podle SPI odpovídají (tedy opravdu číslici, kterou znak představuje). Z každé pětice byl vybrán reprezentant, který je dále uvažován jako předloha. Zde končí vnímaná podobnost (tedy lidský faktor). Tento výběr byl nutný z hlediska posouzení výsledků a jejich úspěšnosti.
Zmenšený náhled na vzorky (40%):
Dalším krokem je určení, podle jaké vlastnosti budeme podobnost posuzovat. Pokud vlastnost vyjádříme matematicky, lze již pracovat s metrickým prostorem. Tj. lze určit "vzdálenost" mezi jednotlivými prvky, které posuzujeme.
Vlastnost, která byla vybrána v případě našich dat byla nazvána "příslušná černost". Nabývá hodnot od 0 do 1. Ovšem "příslušná černost" není obecná vlastnost jednoho vzorku, jak tento zavádějící název napovídá. Obecnou vlastnost vzorku lze nazvat "černost", což je poměr počtu černých pixelů v obrázku ku celkovému poštu pixelů. Příslušná černost závisí již na předloze, se kterou vzorek porovnáváme. Je to poměr černých pixelů, které se nachází na stejném místě v předloze i ve vzorku ku počtu černých pixelů ve vzorku. Samozřejmě před aplikací tohoto algoritmu je vzorový obrázek automaticky oříznut a vymezen černými pixely. Stejně jako je tomu u předlohy. Tímto postupem postihneme i tvar daného znaku ve vzorku.
Princip celé algoritmizace podobnostní definice spočívá v porovnávání všech 416 vzorků se sadou předloh a určení rozsahu, do kterého spadají "podobné" znaky. Proběhlo tedy porovnání 416 vzorků pro každý znak předlohy (13x) a pro každý mapový list (x8). Z algoritmu vystupuje tabulka o 43264 hodnotách, kde je pro každý vzorek uvedena hodnota zvolené vlastnosti. Po aplikaci definice podobnosti NN(P,k,D), vybere "k" nejbližších objektů k předloze P z kolekce dat D, v našem případě jsme zvolili k=10, vznikne tabulka o 1040 hodnotách. Tedy pro každou předlohu 10 "nejbližších" vzorků. Tedy vzorků s nejlepšími hodnotami "příslušné černosti".
Abychom zjistili úspěšnost experimentu, je třeba výsledná data vyhodnotit. To probíhalo v několika krocích:
1) Z tabulky byly vyselektovány vzorky, které neodpovídají svým obsahem předloze, ke které byly svými výsledky přiděleny.
2) Pro každou předlohu bylo vypočítáno score, sumou odpovídajích hodnot vzorků.
3) Pro každou sadu bylo vypočítáno score, sumou odpovídajích hodnot vzorků. Z těchto hodnot lze vyvodit závěry o podobnosti jednotlivých mapových listů.
4) Napříč 8 sadami byla vybrána vždy předloha, která získala nejlepší score, čímž vznikla globální sada předloh.
5) Globální sada byla otestována na vzorcích a zjištěna procentuální úspěšnost.