Neparametrické testování dvou a více
náhodných výběrů z neznámého rozdělení
pravděpodobností s využitím ESRI produktů
autor: Radek BRABLEC | vedoucí práce: Mgr. Pavel TUČEK, Ph.D.
Diskuze
Ke splnění cílů práce bylo zapotřebí nastudovat matematickou
statistiku a především jednotlivé tipy neparametrických testů.
Pro potřeby statistického šetření jsme vybrali nejběžnější statistické
metody, které jsme zakomponovali do praktických výpočtů.
Největším úskalím bylo statistické šetření v terénu. Protože šetření bylo
prováděno více brigádníky-studenty, výsledky byly zatíženy určitou odchylkou,
která mohla vzniknout v důsledku špatné informovanosti či pochopení v zadání
úkolu. Chybné či neúplné záznamy byly hodnoceny jako „NA“, tedy nevalidní.
Další problémy, které se vyskytly při průzkumu, zahrnovaly rozmanité zápisy
do formulářů u jednotlivých sčítačů. Při následném přepisu do tabulek v programu
Excel bylo třeba kontaktovat zmíněné sčítače pro objasnění a doplnění správných
výsledků.
Zpracování dat proběhlo bez větších komplikací. Shapiro-Wilk test normality nám
potvrdil, že naměřená data lze dále použít pro další testování. Potíže se
vyskytly jen při zpracovávání skupiny dat využívající křížových jízdních
dokladů ve společnosti A v linkách společnosti B ve večerních časech.
Ve skupině bylo získáno malé množství vzorku s nulovými hodnotami. Ale při
využití datasetu dle testování Kruskal-Wallise byla data zpracována v prostředí
R bez větších problémů.
Pro dvě datové sady jsme využili dvouvýběrový Wilcoxonův test. Ve třech
testování ze čtyř byly naměřené hodnoty vyhodnoceny jako rozdílné.
Výsledky zhodnotily, že počet nastupujících je rozdílný než počet vystupujících.
Výsledek tohoto testu byl pro nás poněkud překvapující, jelikož jsme očekávali stejné počty
nastupujících vůči vystupujícím cestujícím ve městě.
Rozdíly byly patrné i u křížových jízdenek zakoupených od společnosti B a C,
které byly využívány při jízdě linkami společnosti A.
K porovnání více datových sad jsme použili Kruskal-Wallisův test, který slouží
pro porovnávání několika výběrů. Celkově byl tento test využit ve 13 případech
s výsledkem 8 zamítnutých hypotéz a 5 případech, kdy nešlo hypotézu zamítnout.
Z testů vyplynulo, že počty nastupujících a vystupujících cestujících
v časových obdobích (dopoledne, odpoledne a večer) jsou u společnosti A
rozdílné, kdežto u společnosti B byla naměřená data vyhodnocena jako shodná.
Výsledky testů nejsou vždy objektivní z důvodů nízkého vzorku,
např. při testování u společnosti B nebo při sledování počtu spojů
ve dnech středa a čtvrtek u dopravců A a B. Důvodem takto malého
vzorku v tyto dny bylo získání různých dat, protože první den průzkumu
jsme se zaměřovali na všechny spoje, kdežto další dny jen na vybrané.
Otázkou zůstává, jaké by byly výsledky testů, kdyby se sčítaly každý den
všechny spoje.
Výsledné hodnoty testů by se daly aplikovat i na další města .