PMC

Normalité

Les méthodes d’analyse statistique basées sur les données acquises sont divisées en méthodes paramétriques et méthodes non paramétriques, en fonction de la normalité des données. Lorsque les données satisfont à la normalité, elles montrent une courbe de distribution de probabilité avec la fréquence d’occurrence la plus élevée au centre, et la fréquence diminue avec la distance par rapport au centre. La distance par rapport au centre de la courbe permet de déterminer plus facilement statistiquement si les données obtenues sont fréquemment observées. Étant donné que la plupart des données sont recueillies autour de la valeur moyenne, elles reflètent la nature du groupe et donnent des informations sur l’existence d’une différence entre les groupes et l’ampleur de la différence. En revanche, si les données ne suivent pas la distribution normale, rien ne garantit qu’elles soient centrées sur la moyenne. Par conséquent, la comparaison des caractéristiques entre les groupes en utilisant la valeur moyenne n’est pas possible. Dans ce cas, le test non paramétrique est utilisé, dans lequel les observations sont classées ou signées (par exemple, + ou −), et les sommes sont comparées. Cependant, le test non paramétrique est un peu moins puissant que le test paramétrique. De plus, il est seulement possible de détecter la différence entre les valeurs des groupes mais pas de comparer l’ampleur de ces différences. Par conséquent, il est recommandé d’effectuer une analyse statistique en utilisant le test paramétrique si possible, et que la normalité des données soit la première chose confirmée par le test paramétrique. L’hypothèse dans les tests de normalité est la suivante:

H0: Les données suivent une distribution normale.

H1 : Les données ne suivent pas une distribution normale.

Ainsi, combien d’échantillons seraient appropriés pour supposer une distribution normale et pour effectuer des tests paramétriques?

Selon le théorème de la limite centrale, la distribution des valeurs moyennes de l’échantillon a tendance à suivre la distribution normale quelle que soit la distribution de la population si la taille de l’échantillon est suffisamment grande. Pour cette raison, certains livres suggèrent que si la taille de l’échantillon par groupe est suffisamment grande, le test t peut être appliqué sans le test de normalité. Strictement parlant, ce n’est pas vrai. Bien que le théorème central limite garantisse la distribution normale des valeurs moyennes de l’échantillon, il ne garantit pas la distribution normale des échantillons dans la population. Le but du test t est de comparer certaines caractéristiques représentant des groupes, et les valeurs moyennes deviennent représentatives lorsque la population a une distribution normale. C’est la raison pour laquelle la satisfaction de l’hypothèse de normalité est essentielle dans le test t. Par conséquent, même si la taille de l’échantillon est suffisante, il est recommandé de vérifier d’abord les résultats du test de normalité. Les méthodes bien connues de test de normalité comprennent le test de Shapiro-Wilks et le test de Kolmogorov–Smirnov. Par conséquent, le test t peut-il être effectué avec une très petite taille d’échantillon (par exemple, 3) si le test de normalité est satisfait?

Dans le test de Shapiro–Wilks, connu comme l’un des tests de normalité les plus puissants, il est théoriquement possible d’effectuer le test de normalité avec trois échantillons. Cependant, même si la valeur de P est supérieure au niveau de signification de 0,05, cela ne signifie pas automatiquement que les données suivent une distribution normale. Des erreurs de type I et de type II se produisent dans tous les tests d’hypothèse, qui sont détectés en utilisant les niveaux de signification et la puissance. En général, les programmes statistiques ne fournissent qu’une valeur P pour l’erreur de type I à la suite d’un test de normalité et ne fournissent pas d’alimentation pour l’erreur de type II. La puissance du test de normalité indique la capacité de distinguer les distributions non normales des distributions normales. Comme il n’existe aucune formule permettant de calculer directement la puissance du test de normalité, elle est estimée par simulation informatique. Dans la simulation, l’ordinateur extrait à plusieurs reprises des échantillons d’une certaine taille de la distribution à tester et teste si les échantillons extraits ont une distribution normale à un niveau de signification déterminé. La puissance est la vitesse à laquelle l’hypothèse nulle est rejetée à partir des données obtenues par des simulations répétées plusieurs centaines de fois. S’il n’y a que trois échantillons, il peut être difficile de s’assurer que ceux-ci ne sont pas normalement distribués. Khan et Ahmad ont signalé le changement de puissance en fonction de la taille de l’échantillon sous différentes distributions alternatives non normales (Fig. 2). En fait, les types de distributions mentionnés dans la figure ne sont pas couramment observés dans les études cliniques et ne sont pas essentiels pour comprendre cette figure. Nous n’avons pas expliqué en détail à ce sujet parce queil dépasse notre portée. L’axe des abscisses représente le nombre d’échantillons extraits de chaque type de distribution, et l’axe des ordonnées représente la puissance du test de normalité correspondent au nombre d’échantillons extraits. Figue. 2 montre que, bien qu’il y ait un certain degré de différence selon les modèles de distribution, la puissance a tendance à diminuer lorsque la taille de l’échantillon diminue même si le niveau de signification est fixé à 0,05. Par conséquent, dans des circonstances typiques où le modèle de répartition de la population est inconnu, le test de normalité doit être effectué avec une taille d’échantillon suffisante.

 Un fichier externe contenant une image, une illustration, etc. Le nom de l'objet est kja-d-18-00292f2.jpg

Résultats de puissance du test de Shapiro–Wilks sous différentes distributions alternatives non normales à α = 0,05. La puissance a tendance à diminuer lorsque la taille de l’échantillon diminue. Distribution logistique: distribution logistique alternative (Emplacement = 0, Échelle = 1), Distribution de Weibull: distribution de Weibull alternative (Échelle = 2, Forme = 3) (Modifiée à partir de Khan RA, Ahmad F. Comparaison de puissance de Divers Tests de normalité. Journal Pakistanais de la Statistique et de la recherche opérationnelle 2015; 11. Disponible à partir de http://pjsor.com/index.php/pjsor/article/view/1082).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.