Neparametrické testování dvou a více
náhodných výběrů z neznámého rozdělení
pravděpodobností s využitím ESRI produktů

autor: Radek BRABLEC | vedoucí práce: Mgr. Pavel TUČEK, Ph.D.

Teoretická část

Neparametrické testy


Matematická statistika je vědní disciplína na rozhraní popisné statistiky a aplikované matematiky. S využitím metod teorie pravděpodobnosti se snaží odhadnout vlastnosti rozdělení pozorovaných dat, mezi tyto metody patři parametrické a neparamterická testování. Parametrické testy předpokládají konkrétní rozdělení dat s využitím daného parametru pro výpočet, ale pokud neznám rozdělení dat užiji pro výpočet neparametrické testy, stejně tak pokud mám data ordinální stupnice. Většina parametrických testů má svojí neparametrickou obdobu. Nevýhodou testů je menší vypovídající hodnota obzvláště u menšího počtu naměřených dat.


Pro bakalářskou práci byly využity data ze statistického průzkumu jízdních dokladů veřejné linkové dopravy. V rámci průzkumu bylo šetřeno křížové využívání jízdních dokladů od různých dopravců, a další součástí sledování bylo sčítání počtu nastupujících a vystupujících cestujících na jednotlivých zastávkách pro daný spoj. Výsledkem šetření je třeba zjistit, zdali naměřená data dle určitých parametrů, se mezi sebou shodují či nikoliv. To nám určí vybrané tipy neparametrických testů.



Jednovýběrové testy


Jednovýběrové testy slouží k testování hypotézy, která tvrdí, že daný náhodný výběr X1, . . . , Xn pochází z rozložení s distribuční funkcí (x). Tuto hypotézu lze ověřovat hned několika různými testy, které mohou být založeny na výpočtu suprema vzdálenosti empirické a teoretické distribuční funkce v jednotlivých bodech, porovnání kvantil-kvantilového grafu s regresní přímkou proloženou danými body, nebo srovnávání očekávaných teoretických a empirických četností v daných třídicích intervalech.

druhy testů:
- Jednovýběrový Wilcoxonův test
- Znaménkový test



Dvouvýběrové testy


Dvouvýběrové testy používáme pro testování dvou navzájem nezávislých náhodných výběrů. Jako příklad můžeme uvést porovnávání makroekonomických ukazatelů ve dvou různých zemích ve stejném období. (Pozor: Kdybychom chtěli porovnávat data v jedné zemi ve dvou různých obdobích, musíme užít testů párových.)
Při rozhodování, který z dvouvýběrových testů použít, hraje opět klíčovou roli skutečnost, zda daná data pocházejí z nějakého známého rozdělení (v našem případě normálního), či nikoliv. V závislosti na splnění či nesplnění podmínky normality dělíme testy na parametrické a neparametrické (tedy stejně jako u párového testování).

druhy testů:
- Dvouvýběrový Wilcoxonův test
- Dvovýběrový Kolmogorovův-Smirnovův test



Porovnávání několika výběrů


Užívá se v případech, kdy porovnáváme tři a více navzájem nezávislých náhodných výběrů.

druhy testů:
- Kruskal-Wallis (ův) test
- Friedmanův test
- Profilová analýza



Softwary podporující neparametrické testy


R-projekt


R podle [9] je jazykem a prostředím pro statistické výpočty a grafiku. Poskytuje nepřeberné množství statistických a grafických technik s možností o rozšíření dalších metod. R je dostupný, jako volně šiřitelný software (Free Software) při dodržení podmínek GNU General Public License nadace Free Software Foundation, což může představovat výraznou výhodu proti běžně dostupným komerčním softwarovým nástrojům pro analýzu dat a statistické výpočty, zejména vzhledem k možnostem modifikace programu a jeho další distribuce a dostupnosti zdrojového kódu. R běží pod celou řadou UNIXových platforem a dále pod operačními systémy Windows a MacOS.
R obsahuje veškeré tipy neparametrických testů pod zadanými příkazy. Jednoduchými příkazy lze tak rychle provést statistické vyhodnocení. K využívání prostředí R je potřebná alespoň základní technická vybavenost uživatele - požadavek je třeba vyjádřit syntakticky správně v jazyce R, prostředí R stále nevyužívá grafické uživatelské rozhraní.



Microsoft Excel


Microsoft Excel je dostupný dle [10] a [11] v rámci kancelářského balíku Microsoft Office (verze 2007). Program nabízí přehledné tabulkové prostředí, jež je ovládán přes jednoduché menu. Obsahuje základní pro popisnou statistiku a testování hypotéz. Funkcemi pokrývá většinu parametrických testů, ale již neobsahuje mnoho funkcí pro neparametrické testy. Pro obsáhlejší neparametrické testy je proto třeba si zakoupit nadstavbu UNISTAT, který obsahuje veškeré základní i pokročilé statistické metody.



Matlab


Matlab podle [8] je numerické výpočetní prostředí a také i programovacím jazykem vydaným společností The MathWorks. Je ovládán stejně jako R pomocí zadávání příkazů do konzolového prostředí. Základní strukturou systému jsou matice, pro něž je celý sytém optimalizován. Samotný systém obsahuje jen základní funkce. Veškeré specializované metody jsou obsaženy v tak zvaných toolboxech. Pro oblast statistiky je třeba Statistitcs Toolbos, který obsahuje veškeré funkce pro statistické testování. Tento toolbox nabízí funkce pro většinu parametrických i neparametrických metod.