Cíle práce
Cílem diplomové práce je zpracovat analýzu dat
volebních výsledků s využitím vhodných prostorově-statistických metod.
Nejprve bude sestavena datová sada volebních výsledků z volně dostupných dat, jež bude primárně se zaměřena na data voleb do poslanecké sněmovny
parlamentu České republiky a na prezidentské volby. Volební data budou dále rozšířena o vhodné socioekonomické a demografické ukazatele,
které následně poslouží pro zkoumání závislostí mezi volebními výsledky a charakteristikami území.
Následně budou na data aplikovány
vhodné prostorově-statistické metody za účelem hledání odlehlých hodnot, identifikaci shluků podobných hodnot, popsání vnitřních závislostí
v datech a sestavení modelů popisujících vztahy mezi volebními výsledky a socio-ekonomicko-demografickou situací v místě volby. Důraz
bude kladen především na využití prostorově založených statistických metod. Závěrem student vyhodnotí vhodnost zvolených metod, která
mohou být doporučením pro budoucí práce s tímto typem dat a jednotlivé výsledky zvizualizuje. Výsledná zjištění budou hodnocena a interpretována
v součinnosti s politologem.
Metody a postup zpracování
Použité metody
Mahalanobisova vzdálenost
Mahalanobisova vzdálenost je používána pro vyhledání odlehlých hodnot v rámci definovaných více než jednoho atributu datové sady.
V rámci analýzy odlehlých hodnot byla využita také lokální Mahalanobisova vzdálenost. Lokální Mahalanobisovou vzdáleností je měřena rovněž měřena vzdálenost mezi více atributy, ale jen v rámci definovaného okruhu záznamů (Rajabzadeh 2018).
Lineární regrese a GWR
Druhou statistickou metodou, která byla v rámci zpracování jedné z analýz využita je metoda
lineární regrese. Jedná se o metodu, při které je cílem proložení přímky distribucí bodů.
Geograficky vážená regrese (dále jen GWR), je typ regresního modelu, který popisuje vztah mezi závislou proměnnou
a vysvětlujícími proměnnými v závislosti na geografickém aspektu dat.
Logistická regrese
Logistická regrese je statistickou metodou, která je používána k modelování pravděpodobnosti výskytu nebo absence jevu závislé proměnné. V případě logistické regrese je v rámci modelu využita sigmoidální funkce, popisující binární rozložení prvků datového souboru.
Shluková analýza
Shluková analýza je statistická metoda, kterou jsou na základě určité metody či algoritmu prvky zařazeny do shluků společně s prvky podobných vlastností. V rámci zpracování diplomové práce bylo vybráno ke zpracování hierarchické aglomerativní shlukování. Hlavním výhodou aglomerativního shlukování je oproti diviznímu přístupu způsob tvoření shluků. Tvorba shluků je započata v jednotlivých prvcích datového souboru, které jsou postupně spojovány do větších shluků.
Metody výpočtu volebních ukazatelů
V rámci diplomové práce byla pro výpočet ukazatelů procentuálního volebního úspěchu a volební účasti využita metodika Českého statistického úřadu.
Použitá data
Jedním z cílů práce bylo sestavení datové sady, která měla být složena z dat volebních výsledků pro sněmovní volby 2021 a prezidentské volby 2023. Datová sada je také obohacena o vybrané socio-ekonomicko-demografické (dále jen SED ukazatele) pro vysvětlení prostorových ale i neprostorových souvislostí.

Použité programy
V rámci diplomové práce byly využity programovací jazyk R v prostředí programu RStudio a MS Excel k výpočtům a tvorbě výstupů v podobě grafů a diagramů.
Pro tvorbu mapových výstupů a konverzi mezi prostorovými formáty byly využity GIS programy ArcGIS Pro a QGIS.
Pro tvorbu posteru a úpravu grafických výstupů byl využit program Inkscape .
Postup zpracování

Výsledky
Analýza odlehlých hodnot
V první provedené analýze byla hodnocena mnohorozměrná míra odlehlosti s využitím Mahalanobisovi vzdálenosti z globálního i lokálního pohledu u sněmovních voleb 2021 i prezidentských voleb 2023. Při hodnocení bylo dále zjištěno, že kraj Vysočina obsahuje nejvíce ZUJ klasifikovaných jako odlehlé. Dalším faktem je vyšší výskyt odlehlých hodnot v příhraničních oblastech a oblastech vnitřních periferií na hranicích krajů. Příklady lokálních a globálních odlehlostí jsou uvedeny níže.

Analýza využití voličských průkazů
V rámci druhé analýzy bylo zkoumáno využití voličských průkazů v kontextu prezidentských voleb 2023. Vzhledem k neexistující evidenci těchto dat byl společně s tématikem diplomové práce navržen alternativní postup, založený na indexu změny, vypočteného podílem voličů v seznamu roku 2023 a voličů v seznamu roku 2020. Z výsledků provedené analýzy bylo u 29 ZUJ indikováno nadprůměrné využití voličských průkazů, podložené pozitivní signifikantní změnou vypočteného indexu, v blízkosti významných lyžařských středisek.

Vysvětlení volebních výsledků na základě GWR modelů
Tématem třetí zpracované analýzy byl popis volebního chování čtyř nejúspěšnějších politických subjektů sněmovních voleb 2021 pomocí vybraných SED ukazatelů, které v této analýze sloužily jako prediktory, na vytvořených GWR modelech. Výsledkem analýzy jsou čtyři sestavené prostorově vážené regresní modely zvolených politických subjektů, jimiž byly koalice SPOLU, hnutí ANO 2011, koalice Pirátů a Starostů a hnutí SPD. Všemi GWR modely je obecně nejlépe vysvětlena variabilita závislé proměnné v Praze , naopak nejméně přesné jsou GWR modely v Jihočeském kraji a na Vysočině.

Analýza úspěšnosti predikce na základě logistické regrese
VČtvrtá zpracovaná analýza se zabývala porovnáním úspěšnosti predikcí v druhém kole prezidentských voleb 2023, založených na klasických a prostorově vážených modelech logistické regrese. Na základě vypočtených modelů byla provedena predikce, jejíž výsledky byly v dalším kroku hodnoceny podle druhu využitého modelu logistické regrese. Z hodnocení prostřednictvím matice záměn bylo zjištěno, že prostorově vážený logistický model byl v predikci hodnot úspěšnější než klasický logistický model. Tato skutečnost je způsobena zahrnutím prostorového kontextu do výpočtu modelu logistické regrese.

Vymezené shluky na základě volebního chování
Poslední analýza byla zpracována za účelem vymezení shluků z hlediska volebních výsledků sedmi nejúspěšnějších politických subjektů ve sněmovních volbách 2021, jež byly dále charakterizovány prostřednictvím vybraných SED ukazatelů. Z testovaných metod byla vybrána metoda hierarchického shlukování, jejíž aplikací bylo vymezeno šest výsledných shluků. U vymezených shluků byly v dalším kroku vypočteny rozdíly průměrných hodnot volebních výsledků jednotlivých shluků vůči celostátnímu průměru a sestavena tabulka, podle které byly výsledné shluky pojmenovány. K dodatečné charakteristice shluků byla dále vytvořena tabulka vybraných SED ukazatelů, kde byly opět vypočítány rozdíly mezi průměrnými hodnotami shluků a celostátního průměru. Výsledné rozdíly SED ukazatelů v dalším kroku rozděleny na podprůměrné, střední a nadprůměrné hodnoty. Shlukovou analýzou byla vymezena jádra regionů podpory vládní koalice i opozice. Tyto shluky byly následně prostřednictvím SED ukazatelů charakterizovány, čímž bylo zjištěno, že regiony podporující vládní koalici disponují obecně vyšším životním standardem v porovnání s regiony podporující vládní opozici.


Summary
The diploma thesis deals with the spatial evaluation of election results data using spatial statistical methods. The theoretical part of the thesis provides a basic insight into the issue and a brief characterization of methods evaluating election results data from a statistical and spatial point of view. The practical part of the thesis aims to evaluate the election result data based on a dataset containing the election results data itself and selected social, economic and demographic characteristics. Five analyses were developed as part of the thesis for the 2021 Chamber of Deputies and 2023 Presidential elections in the Czech Republic. The analyses developed dealt with the evaluation of multivariate outliers of input attributes, the use of voter ID cards, the description of the variable behaviour of election results using GWR models, prediction based on logistic regression models and cluster analysis. All analyses were conducted over administrative units of basic territorial units. The main output of the analyses of electoral results are ten map outputs, which, in addition to maps, also include tables, graphs, etc., providing additional information on the results of the analyses. The results of each analysis provide a comprehensive overview of voting behaviour and preferences in the context of the chosen elections.