Analýza dat vytíženosti železniční infrastruktury

Tato webová stránka je věnována prezentaci diplomové práce, jejíž tématem je analýza dat o vytížení železniční infrastruktury z hlediska analýzy časové složky dat a kategorizace. Diplomová práce vznikla na Katedře geoinformatiky Univerzity Palackého v Olomouci ve spolupráci s organizací Správa železnic státní organizace a jejím vedoucím je
doc. Ing. Zdena Dobešová, Ph.D.

Metody

Kontingenční tabulky

Při použití v této diplomové práci bylo využito řešení kontingenčních tabulek v programu Microsoft Office Excel. Poskytnutá data musela být sumarizována za jednotlivé úseky nebo monitorovací body. Původní stav zobrazoval měsíční záznamy za jednotlivé druhy dopravy pro úseky nebo monitorovací body. Nejdříve byla vytvořena prázdná kontingenční tabulka na novém listu aplikace Excel a poté jsou nadefinovány jednotlivé oblasti tabulky do čtyř kategorií. Kategorie filtry je volitelná a můžeme zde umístit sloupec, dle kterého chceme výslednou tabulku filtrovat. Řádky je kategorie, do které umístíme sloupec, který bude prvním sloupcem nové tabulky, dle kterého se obsah tabulky přepočítává. V kategoriích sloupce a hodnoty se definuje oblast zdrojového grafu, ze kterého budou pocházet hodnoty nového grafu, sumarizované na základě dostupných funkcí, jako jsou například suma nebo průměr.

Analýza časových řad

„Časovou řadou rozumíme posloupnost hodnot ukazatelů, měřených v určitých časových intervalech. Tyto intervaly jsou zpravidla rovnoměrné (ekvidistantní), a proto je můžeme zapsat následujícím způsobem: y1, y2, …, yn neboli yt, t = 1, …, n, kde y značí analyzovaný ukazatel, t je časová proměnná s celkovým počtem pozorování n“ (Hančlová a Tvrdý 2003, s. 3). Cílem analyzování časových řad je konstrukce takového modelu, který by pomohl porozumět mechanismu, na jehož základech vznikají hodnoty časových řad. Dále pak pomůže k pochopení podmínek a vazeb, které působí na vznik těchto hodnot. Na základě vybudované modelu, lze predikovat a hodnotit budoucí chování (Hančlová a Tvrdý, 2003). Dle Klímka a Kasala (2007) se časovou řadou rozumí posloupnost věcně a prostorově srovnatelných pozorování, která jsou uspořádána z hlediska času ve směru od minulosti do budoucnosti.

Shlukování

Nejdříve je nutné si vymezit rozdíl mezi shlukováním a klasifikací. Klasifikace je takové dělení objektů, kdy máme předem zadané kategorie, do kterých se budou objekty přiřazovat, nebo je jasně definován postup tohoto rozdělení. Shlukovací metoda je taková, kdy neznáme klasifikační kritéria a současně ani neznáme vlastnosti budoucích shluků. Výsledné shluky můžeme nazývat jako hledané klasifikační třídy (Šarmanová, 2015). „Metody shlukové analýzy mají za úkol hledat podobnost nebo naopak odlišnost mezi objekty jen na základě zadaných vlastností, bez jejich dalšího vysvětlování. Shluková analýza hledá struktury v zpracovávaných datech. Seskupuje podobné objekty do množin, které nazýváme shluky. Prvky jednoho shluku si jsou navzájem nějakým způsobem podobnější, než objekty do tohoto shluku nepatřící“ (Kučera 2008, s. 7). „Shluková analýza zkoumá, zda se množina objektů O = {O1, O2, …, Om} zadaných reálnými atributy A = {A1, A2, …, An} přirozeně rozpadá na výrazné podmnožiny objektů si podobných, a přitom nepodobných objektům shluků ostatních. Pokud takové podmnožiny existují, nazýváme je shluky“ (Šarmanová 2015, s. 65). Samotná míra podobnosti nemá platnou definici stejně jako samotný shluk. Pro výběr shlukovací metody je třeba zvážit velké množství možností zpracování a vstupních atributů.