Neparametrické testování dvou a více
náhodných výběrů z neznámého rozdělení
pravděpodobností s využitím ESRI produktů

autor: Radek BRABLEC | vedoucí práce: Mgr. Pavel TUČEK, Ph.D.

Diskuze

Ke splnění cílů práce bylo zapotřebí nastudovat matematickou statistiku a především jednotlivé tipy neparametrických testů. Pro potřeby statistického šetření jsme vybrali nejběžnější statistické metody, které jsme zakomponovali do praktických výpočtů. Největším úskalím bylo statistické šetření v terénu. Protože šetření bylo prováděno více brigádníky-studenty, výsledky byly zatíženy určitou odchylkou, která mohla vzniknout v důsledku špatné informovanosti či pochopení v zadání úkolu. Chybné či neúplné záznamy byly hodnoceny jako „NA“, tedy nevalidní. Další problémy, které se vyskytly při průzkumu, zahrnovaly rozmanité zápisy do formulářů u jednotlivých sčítačů. Při následném přepisu do tabulek v programu Excel bylo třeba kontaktovat zmíněné sčítače pro objasnění a doplnění správných výsledků.
Zpracování dat proběhlo bez větších komplikací. Shapiro-Wilk test normality nám potvrdil, že naměřená data lze dále použít pro další testování. Potíže se vyskytly jen při zpracovávání skupiny dat využívající křížových jízdních dokladů ve společnosti A v linkách společnosti B ve večerních časech. Ve skupině bylo získáno malé množství vzorku s nulovými hodnotami. Ale při využití datasetu dle testování Kruskal-Wallise byla data zpracována v prostředí R bez větších problémů.
Pro dvě datové sady jsme využili dvouvýběrový Wilcoxonův test. Ve třech testování ze čtyř byly naměřené hodnoty vyhodnoceny jako rozdílné. Výsledky zhodnotily, že počet nastupujících je rozdílný než počet vystupujících. Výsledek tohoto testu byl pro nás poněkud překvapující, jelikož jsme očekávali stejné počty nastupujících vůči vystupujícím cestujícím ve městě. Rozdíly byly patrné i u křížových jízdenek zakoupených od společnosti B a C, které byly využívány při jízdě linkami společnosti A.
K porovnání více datových sad jsme použili Kruskal-Wallisův test, který slouží pro porovnávání několika výběrů. Celkově byl tento test využit ve 13 případech s výsledkem 8 zamítnutých hypotéz a 5 případech, kdy nešlo hypotézu zamítnout. Z testů vyplynulo, že počty nastupujících a vystupujících cestujících v časových obdobích (dopoledne, odpoledne a večer) jsou u společnosti A rozdílné, kdežto u společnosti B byla naměřená data vyhodnocena jako shodná.
Výsledky testů nejsou vždy objektivní z důvodů nízkého vzorku, např. při testování u společnosti B nebo při sledování počtu spojů ve dnech středa a čtvrtek u dopravců A a B. Důvodem takto malého vzorku v tyto dny bylo získání různých dat, protože první den průzkumu jsme se zaměřovali na všechny spoje, kdežto další dny jen na vybrané. Otázkou zůstává, jaké by byly výsledky testů, kdyby se sčítaly každý den všechny spoje.
Výsledné hodnoty testů by se daly aplikovat i na další města .