METODY A POSTUP ZPRACOVÁNÍ
Použitá data
V této práci jsou použita data pocházející primárně z Českého statistického úřadu, tato data však byla dále zpracována v magisterské práci Jakuba Vlosinského – Prostorové analýzy časových řad volebních výsledků (2011). Data obsahují absolutní hodnoty počtů hlasů jednotlivých volebních stran napříč volbami do Evropského parlamentu, Poslanecké sněmovny, krajských zastupitelstev, přičemž se budou zkoumat období 2000–2009. Dále obsahují počty občanů na volebních seznamech jednotlivých obcí, počet vydaných obálek, počty odevzdaných a platných hlasů. Všechna výše zmíněná data byla zhodnocena dle vhodnosti využití pro neuronové sítě a byla z nich vybrána jen potřebná část k uskutečnění cílů práce. Všechna data byla obdržena ve formátu XLS.
Použité programy
Pro práci s daty byl použit tabulkový procesor Microsoft (MS) Excel od firmy Microsoft, který umožňuje jednoduchou práci s daty, jejich editaci, správu, implementaci vzorců a převod do textových formátů. Pro celou práci byly použity dvě verze MS Excel – 2003 a 2007. Verze MS Excel 2007 podporuje převod dat do textových souborů TXT v kódování ASCII.
Na tvorbu neuronových sítí typu SOM (Self-Organizing Map) byl použit program vytvořený na Vysoké škole Báňské v Ostravě na fakultě elektrotechniky a informatiky Ing. Lukášem Vojáčkem. Tento program nese název SOM_AV, jako doplňkový program pro převod binárních souborů vytvořených SOM_AV byl použit program SOMConvert od stejného autora. Druhý jmenovaný program je prostředníkem mezi binárními výstupy SOM_AV a volně dostupným programem Java SOMToolbox. Programy lze spustit pouze z příkazového řádku Windows. Další podmínkou je 64 bitový systém Windows pro SOM_AV a SOMConverter.
Dle internetových stránek Vienna University of Technology (2011) je Java SOMToolbox opensource implementovaný v Java, umožňující snadno trénovat SOM, analyzovat je a implementovat širokou škálu různých vizualizací, umožňujících vyhodnocení vyškolených map a vlastností údajů. Je tudíž výkonným nástrojem pro dolování dat. Java SOMToolbox je vyvíjen Ústavem softwarových technologií
a interaktivních systémů na Technické Univerzitě ve Vídni a licencován na základě licence Apache, verze 2.0.
Dalším použitým programem je Console2, který umožňuje nahradit příkazový řádek Windows. Tato nahrazující konzole dovoluje kopírování cest, tvorbu záložek a mnoho dalších uživatelských úprav, jako je mimo jiné například změna vzhledu. Console2 je vhodná pro práci s velkým počtem souborů spouštěných z příkazového řádku. Console2 je licencována pod GNU General Public License (GPL).
Na pozdější tvorbu mapových výstupů byl použit program od společnosti ESRI ArcMap verze 10.0., který umožňuje vstup tabulek formátu DBF a jejich následné spojení s geografickými daty formátu SHP . Tabulky formátu DBF byly vytvořeny převodem z XLS souborů v programu MS Excel 2003.
Postup zpracování
Neuronové sítě se obecně dělí do několika skupin a nabízejí širokou škálu použití. Avšak některé typy neuronových sítí a jejich modifikací nejsou použitelné a celkově vhodné pro zkoumanou problematiku. Z tohoto důvodu bylo první fází magisterské práce vybrat na základě dostupné literatury vhodný typ neuronové sítě pro analýzu volebních výsledků. Dle Koděrové (2010) je každá neuronová síť vhodná pro jinak definovanou úlohu, nastavení modelu je individuální a liší se v závislosti na typu zkoumaného problému. Teorií řešení úloh umělé inteligence se zabýval mimo jiné
i Mařík (2001), který při rozhodování zdůrazňuje správnou argumentaci a matematickou logiku.
PPo výběru typu neuronové sítě, která byla aplikována na celý soubor dat, bylo nutné tato data filtrovat a provést integraci dat. Dále provést výběr atributů vhodných k analýze, ošetřit a vyloučit chybná data a data redundantní a irelevantní. „Dolováním znalostí nazýváme proces netriviálního získávání implicitní, dříve neznámé
a potencionálně užitečné informace z dat.“ (Šarmanová, 2002) Následuje seskupování dat do takové podoby, aby datový soubor po analýze neuronové sítě mohl být dále použit a zpracován právě pro zobrazení výsledků do map. V této části musely být vyřešeny problémy s proměnlivostí hranic obcí, jelikož hranice správních celků
se postupně měnily mezi lety 2000–2009, kdy největší změny uspořádání zaznamenaly obce moravských krajů a velká města s několika volebními obvody jako Praha, Brno
a Plzeň.
Po provedení standardizace atributů, neboli odstranění závislosti reálných atributů na jednotkách měření, následuje normalizace celého souboru dat, která odstraní závislost těchto atributů na velikosti objektu, tedy odstranění závislosti počtu hlasů na počtu obyvatel. Metodami normalizace se zabýval Meško (2008), podle kterého byla zvolena lineární transformace, což je transformace dat do intervalu tato transformace je v práci označována zkratkou NN. Druhá zvolená transformace je podobná, neobsahuje ovšem nulu pro minimální hodnotu . V práci je tato transformace označována zkratkou AN. Byly zvoleny dva typy normalizace z důvodů porovnání výsledků neuronové sítě. Na základě těchto předpokladů bylo zkoumáno jak velký vliv má tato normalizace na výsledek a zda je některá z metod účinnější. Metodami normalizace se zabývá podrobně kapitola 4 Předzpracování volebních výsledků.
Dalším krokem bylo převedení normalizovaných dat z MS Excel do formátu TXT a do formátování podporovaného programem SOM_AV. Naformátování textového souboru vyžadovalo prvně převod do TXT odděleného tabulátory. Textové soubory byly následně kopírovány zpět do předchystané šablony programu MS Excel, která obsahuje několik vzorců zajišťujících automatický převod hodnot na požadované formátování. Touto problematikou se zabývá v textu magisterské práce kapitola 4.3 Příprava dat pro SOM_AV.