Více o základní předpoklady t-test: normalita a velikost vzorku

Normality

Statistické metody analýzy na základě získaných dat jsou rozděleny do parametrické metody a neparametrické metody, v závislosti na normalitě dat. Když data splňují normálnost, ukazuje křivku distribuce pravděpodobnosti s nejvyšší frekvencí výskytu ve středu a frekvence se snižuje se vzdáleností od středu. Vzdálenost od středu křivky usnadňuje statisticky určit, zda jsou získaná data často pozorována. Protože většina dat se shromáždili kolem střední hodnoty, odráží povahu skupiny a dává informace o tom, zda existuje rozdíl mezi skupinami a velikosti rozdíl. Na druhou stranu, pokud data nesledují normální rozdělení, neexistuje žádná záruka, že jsou soustředěna na průměr. Porovnání charakteristik mezi skupinami pomocí střední hodnoty proto není možné. V tomto případě se používá neparametrický test, ve kterém jsou pozorování seřazena nebo podepsána (např. Neparametrický test je však poněkud méně silný než parametrický test . Kromě toho je možné detekovat pouze rozdíl mezi hodnotami skupin, ale neporovnávat velikost těchto rozdílů. Proto se doporučuje, aby byla statistická analýza provedena pomocí parametrického testu, pokud je to možné, a aby normálnost dat byla první věcí potvrzenou parametrickým testem. Hypotéza při testování normality je následující:

H0: data sledují normální rozdělení.

H1: data nesledují normální rozdělení.

kolik vzorků by tedy bylo vhodné převzít normální distribuci a provést parametrické testy?

podle centrální limitní věty má rozdělení průměrných hodnot vzorku tendenci sledovat normální rozdělení bez ohledu na rozdělení populace, pokud je velikost vzorku dostatečně velká . Z tohoto důvodu existují některé knihy, které naznačují, že pokud je velikost vzorku na skupinu dostatečně velká, lze t-test použít bez testu normality. Přesně řečeno, to není pravda. Ačkoli centrální limitní věta zaručuje normální rozdělení středních hodnot vzorku, nezaručuje normální rozdělení vzorků v populaci. Účelem t-testu je porovnat určité charakteristiky představující skupiny a průměrné hodnoty se stanou reprezentativními, pokud má populace normální rozdělení. To je důvod, proč je v t-testu zásadní uspokojení předpokladu normality. Proto i když je velikost vzorku dostatečná, doporučuje se nejprve zkontrolovat výsledky testu normality. Dobře známé metody testování normality patří Shapiro–Wilks test a Kolmogorov–Smirnov test. Může tedy být t-test proveden s velmi malou velikostí vzorku (např. 3), pokud je test normality splněn?

V Shapiro–Wilks test, který je známý jako jeden z nejsilnějších normality testy, teoreticky je možné provést test normality se třemi vzorky . Avšak i když je hodnota P větší než úroveň významnosti 0,05, neznamená to automaticky, že data sledují normální rozdělení. Chyby typu I a typu II se vyskytují ve všech testech hypotéz, které jsou detekovány pomocí úrovní významnosti a výkonu. Statistické programy obecně poskytují pouze hodnotu P pro chybu typu I v důsledku testování normality a neposkytují napájení pro chybu typu II. Síla testu normality označuje schopnost rozlišovat nenormální distribuce od normálních distribucí. Protože neexistuje žádný vzorec, který by mohl vypočítat výkon testu normality přímo, odhaduje se počítačovou simulací. V simulaci počítač opakovaně extrahuje vzorky určité velikosti z distribuce, která má být testována, a testuje, zda mají extrahované vzorky normální distribuci na stanovené úrovni významnosti. Síla je rychlost, při které je nulová hypotéza odmítnuta z dat získaných simulacemi opakovanými více než stokrát. Pokud existují pouze tři vzorky, může být obtížné zajistit, aby nebyly normálně distribuovány. Khan a Ahmad uvedli změnu výkonu podle velikostí vzorků v různých alternativních nepravidelných distribucích (obr. 2). Ve skutečnosti typy distribucí uvedené na obrázku nejsou běžně pozorovány v klinických studiích a nejsou nezbytné pro pochopení tohoto čísla. O tom podrobně nevysvětlujeme, protože to přesahuje náš rozsah. Osa x představuje počet vzorků extrahovaných z každého distribučního typu a osa y představuje sílu testu normality odpovídající počtu extrahovaných vzorků. Obr. 2 ukazuje, že i když existuje určitý stupeň rozdílu v závislosti na vzorcích distribuce, síla má tendenci klesat, když velikost vzorku klesá, i když je úroveň významnosti stanovena na 0,05. Proto za typických okolností, kdy distribuční vzorec populace není znám, by měl být test normality proveden s dostatečnou velikostí vzorku.

externí soubor, který obsahuje obrázek, ilustraci atd. Název objektu je kja-d-18-00292f2.jpg

Moc výsledky Shapiro–Wilks test pod různými alternativní non-normální rozdělení u α = 0,05. Výkon má tendenci klesat, když velikost vzorku klesá. Logistické rozdělení: alternativní Logistic (Umístění = 0, Scale = 1) rozdělení, Weibullovo rozdělení: alternativní Weibull (Stupnice = 2 Tvar = 3) distribuce (upraveno z Khan RA, Ahmad F. Napájení Srovnání Různých Normality Testy. Pakistan Journal of Statistics and Operation Research 2015; 11. Dostupné od http://pjsor.com/index.php/pjsor/article/view/1082).

PMC

Normality

Napsat komentář Zrušit odpověď na komentář