Neparametrické testování dvou a více
náhodných výběrů z neznámého rozdělení
pravděpodobností s využitím ESRI produktů
autor: Radek BRABLEC | vedoucí práce: Mgr. Pavel TUČEK, Ph.D.
Teoretická část
Neparametrické testy
Matematická statistika je vědní disciplína na rozhraní popisné statistiky a aplikované matematiky. S využitím metod teorie pravděpodobnosti se snaží odhadnout vlastnosti rozdělení pozorovaných dat, mezi tyto metody patři parametrické a neparamterická testování. Parametrické testy předpokládají konkrétní rozdělení dat s využitím daného parametru pro výpočet, ale pokud neznám rozdělení dat užiji pro výpočet neparametrické testy, stejně tak pokud mám data ordinální stupnice. Většina parametrických testů má svojí neparametrickou obdobu. Nevýhodou testů je menší vypovídající hodnota obzvláště u menšího počtu naměřených dat.
Pro bakalářskou práci byly využity data ze statistického průzkumu jízdních dokladů veřejné linkové dopravy. V rámci průzkumu bylo šetřeno křížové využívání jízdních dokladů od různých dopravců, a další součástí sledování bylo sčítání počtu nastupujících a vystupujících cestujících na jednotlivých zastávkách pro daný spoj. Výsledkem šetření je třeba zjistit, zdali naměřená data dle určitých parametrů, se mezi sebou shodují či nikoliv. To nám určí vybrané tipy neparametrických testů.
Jednovýběrové testy
Jednovýběrové testy slouží k testování hypotézy, která tvrdí,
že daný náhodný výběr X1, . . . , Xn pochází z rozložení s distribuční
funkcí (x). Tuto hypotézu lze ověřovat hned několika různými testy,
které mohou být založeny na výpočtu suprema vzdálenosti empirické
a teoretické distribuční funkce v jednotlivých bodech, porovnání
kvantil-kvantilového grafu s regresní přímkou proloženou danými body,
nebo srovnávání očekávaných teoretických a empirických četností
v daných třídicích intervalech.
druhy testů:
- Jednovýběrový Wilcoxonův test
- Znaménkový test
Dvouvýběrové testy
Dvouvýběrové testy používáme pro testování dvou navzájem nezávislých
náhodných výběrů. Jako příklad můžeme uvést porovnávání
makroekonomických ukazatelů ve dvou různých zemích ve stejném období.
(Pozor: Kdybychom chtěli porovnávat data v jedné zemi ve dvou různých
obdobích, musíme užít testů párových.)
Při rozhodování, který z dvouvýběrových testů použít, hraje opět
klíčovou roli skutečnost, zda daná data pocházejí z nějakého známého
rozdělení (v našem případě normálního), či nikoliv. V závislosti na
splnění či nesplnění podmínky normality dělíme testy na parametrické
a neparametrické (tedy stejně jako u párového testování).
druhy testů:
- Dvouvýběrový Wilcoxonův test
- Dvovýběrový Kolmogorovův-Smirnovův test
Porovnávání několika výběrů
Užívá se v případech, kdy porovnáváme tři a více navzájem nezávislých
náhodných výběrů.
druhy testů:
- Kruskal-Wallis (ův) test
- Friedmanův test
- Profilová analýza
Softwary podporující neparametrické testy
R-projekt
R podle [9] je jazykem a prostředím pro statistické výpočty
a grafiku. Poskytuje nepřeberné množství statistických a grafických
technik s možností o rozšíření dalších metod. R je dostupný, jako
volně šiřitelný software (Free Software) při dodržení podmínek
GNU General Public License nadace Free Software Foundation, což může
představovat výraznou výhodu proti běžně dostupným komerčním softwarovým
nástrojům pro analýzu dat a statistické výpočty, zejména vzhledem
k možnostem modifikace programu a jeho další distribuce a dostupnosti
zdrojového kódu. R běží pod celou řadou UNIXových platforem a dále
pod operačními systémy Windows a MacOS.
R obsahuje veškeré tipy neparametrických testů pod zadanými příkazy.
Jednoduchými příkazy lze tak rychle provést statistické vyhodnocení.
K využívání prostředí R je potřebná alespoň základní technická
vybavenost uživatele - požadavek je třeba vyjádřit syntakticky
správně v jazyce R, prostředí R stále nevyužívá grafické uživatelské
rozhraní.
Microsoft Excel
Microsoft Excel je dostupný dle [10] a [11] v rámci kancelářského balíku Microsoft Office (verze 2007). Program nabízí přehledné tabulkové prostředí, jež je ovládán přes jednoduché menu. Obsahuje základní pro popisnou statistiku a testování hypotéz. Funkcemi pokrývá většinu parametrických testů, ale již neobsahuje mnoho funkcí pro neparametrické testy. Pro obsáhlejší neparametrické testy je proto třeba si zakoupit nadstavbu UNISTAT, který obsahuje veškeré základní i pokročilé statistické metody.
Matlab
Matlab podle [8] je numerické výpočetní prostředí a také i programovacím jazykem vydaným společností The MathWorks. Je ovládán stejně jako R pomocí zadávání příkazů do konzolového prostředí. Základní strukturou systému jsou matice, pro něž je celý sytém optimalizován. Samotný systém obsahuje jen základní funkce. Veškeré specializované metody jsou obsaženy v tak zvaných toolboxech. Pro oblast statistiky je třeba Statistitcs Toolbos, který obsahuje veškeré funkce pro statistické testování. Tento toolbox nabízí funkce pro většinu parametrických i neparametrických metod.