PMC

normalność

metody analizy statystycznej oparte na uzyskanych danych dzielą się na metody parametryczne i nieparametryczne, zgodnie z normalnością danych. Gdy dane spełniają normalność, pokazuje krzywą rozkładu prawdopodobieństwa z najwyższą częstotliwością występowania w centrum, a częstotliwość maleje wraz z odległością od centrum. Odległość od środka krzywej ułatwia statystycznie określenie, czy Uzyskane dane są często obserwowane. Ponieważ większość danych jest gromadzona wokół średniej wartości, odzwierciedla ona charakter grupy i daje informacje o tym, czy istnieje różnica między grupami i jej wielkości. Z drugiej strony, jeśli dane nie podążają za rozkładem normalnym, nie ma gwarancji, że są wyśrodkowane na średniej. W związku z tym porównanie cech między grupami przy użyciu wartości średniej nie jest możliwe. W tym przypadku stosuje się test nieparametryczny, w którym obserwacje są klasyfikowane lub podpisywane (np. + Lub -), a sumy są porównywane. Jednak test nieparametryczny jest nieco mniej wydajny niż test parametryczny . Ponadto możliwe jest tylko wykrycie różnicy między wartościami grup, ale nie porównywanie wielkości tych różnic. Dlatego zaleca się , aby analiza statystyczna była wykonywana przy użyciu testu parametrycznego, jeśli to możliwe, i aby normalność danych była pierwszą rzeczą potwierdzoną testem parametrycznym. Hipoteza w badaniu normalności jest następująca:

H0: dane są zgodne z rozkładem normalnym.

H1: dane nie są zgodne z rozkładem normalnym.

zatem, ile próbek byłoby odpowiednich, aby przyjąć rozkład normalny i przeprowadzić testy parametryczne?

zgodnie z centralnym twierdzeniem granicznym, rozkład średnich wartości próby ma tendencję do podążania za rozkładem normalnym, niezależnie od rozkładu populacji, jeśli wielkość próby jest wystarczająco duża . Z tego powodu istnieje kilka książek, które sugerują, że jeśli wielkość próby na Grupę jest wystarczająco duża, test t może być stosowany bez testu normalności. Ściśle mówiąc, to nie jest prawda. Chociaż centralne twierdzenie graniczne gwarantuje normalny rozkład średnich wartości próbki, nie gwarantuje normalnego rozkładu próbek w populacji. Celem testu t jest porównanie pewnych cech reprezentujących grupy, a średnie wartości stają się reprezentatywne, gdy populacja ma rozkład normalny. To jest powód, dla którego spełnienie założenia normalności jest niezbędne w teście T. W związku z tym, nawet jeśli wielkość próby jest wystarczająca, zaleca się najpierw sprawdzenie wyników testu normalności. Znane metody badania normalności obejmują test Shapiro-Wilksa i test Kołmogorowa-Smirnowa. W związku z tym, czy test t może być przeprowadzony przy bardzo małej wielkości próbki (np. 3), jeśli test normalności jest spełniony?

w teście Shapiro–Wilksa, który jest znany jako jeden z najpotężniejszych testów normalności, teoretycznie możliwe jest wykonanie testu normalności z trzema próbkami . Jednak nawet jeśli wartość P jest większa niż poziom istotności 0,05, nie oznacza to automatycznie, że dane są zgodne z rozkładem normalnym. Błędy typu I i typu II występują we wszystkich testach hipotez, które są wykrywane za pomocą poziomów istotności i mocy. Ogólnie rzecz biorąc, programy statystyczne dostarczają tylko wartość p dla błędu typu I w wyniku badania normalności i nie dostarczają energii dla błędu typu II. Moc testu normalności wskazuje na zdolność odróżniania rozkładów nienormalnych od rozkładów normalnych. Ponieważ nie ma wzoru, który mógłby bezpośrednio obliczyć moc testu normalności, jest on szacowany za pomocą symulacji komputerowej. W symulacji komputer wielokrotnie pobiera próbki o określonej wielkości z badanego rozkładu i sprawdza, czy pobrane próbki mają rozkład normalny na ustalonym poziomie istotności. Moc to szybkość, z jaką hipoteza zerowa jest odrzucana z danych uzyskanych za pomocą symulacji powtarzanych ponad kilkaset razy. Jeśli istnieją tylko trzy próbki, może być trudno zapewnić, że nie są one normalnie rozprowadzane. Khan i Ahmad poinformowali o zmianie mocy w zależności od wielkości próbki w różnych alternatywnych rozkładach nienormalnych (rys. 2). W rzeczywistości rodzaje rozkładów wymienionych na rysunku nie są powszechnie obserwowane w badaniach klinicznych i nie są niezbędne do zrozumienia tej liczby. Nie wyjaśniliśmy tego szczegółowo, ponieważ wykracza poza nasz zakres. Oś x reprezentuje liczbę próbek pobranych z każdego typu dystrybucji, a oś y reprezentuje moc testu normalności odpowiadającą liczbie pobranych próbek. Fig. 2 pokazuje, że, chociaż istnieje pewien stopień różnicy w zależności od wzorców dystrybucji, moc ma tendencję do zmniejszania się, gdy wielkość próby zmniejsza się, nawet jeśli poziom istotności jest ustalona na 0,05. Dlatego też w typowych okolicznościach, w których schemat rozmieszczenia populacji jest nieznany, badanie normalności powinno być przeprowadzone przy odpowiedniej wielkości próby.

plik zewnętrzny, który zawiera zdjęcie, ilustrację itp. Nazwa obiektu to kja-d-18-00292f2.. jpg

wyniki badania mocy Shapiro-Wilksa w różnych alternatywnych rozkładach nienormalnych przy α = 0,05. Moc ma tendencję do zmniejszania się, gdy wielkość próbki maleje. Rozkład logistyczny: alternate Logistic (Location = 0, Scale = 1) distribution, Weibull distribution: alternate Weibull (Scale = 2, Shape = 3) distribution (Modified from Khan RA, Ahmad F. Power Comparison of Various Normality Tests. Pakistan Journal of Statistics and Operation Research 2015; 11. Dostępne od http://pjsor.com/index.php/pjsor/article/view/1082).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.