LLes niveaux de signification arbitraires sont décidés avant le calcul de la statistique de contraste et les niveaux de signification non arbitraires dépendent de la valeur prise par la statistique de contraste, qui dépendent tous deux de la distribution suivie par les données.
En d'autres termes, les niveaux de signification arbitraires seront toujours les mêmes pour différentes valeurs de la statistique de test et les niveaux de signification non arbitraires seront différents pour différentes valeurs de la statistique de test.
Pas arbitraire
Lorsqu'un concept est pointé du doigt, la caractéristique d'être arbitraire signifie que la valeur de ce concept est choisie par le chercheur. a priori (avant) de faire l'expérience sans se fier à des informations connexes.
Valeur p et éléphants
Par exemple, supposons que nous voulions tester le nombre d'éléphants dans un pré.
Avant de voir la prairie et les éléphants qui existent réellement, nous supposons a priori le nombre d'éléphants. On dit qu'il peut y avoir 10 éléphants. Alors, on va au pré et on compte le nombre d'éléphants que l'on voit : 1, 2, 3, 4, 5, 6 et 7.
Notre hypothèse nulle était que le nombre d'éléphants dans le pré était égal à 10 et notre hypothèse alternative était qu'il y en avait moins de 10. Donc, étant donné les éléphants qu'il y a, nous rejetterions l'hypothèse nulle. Mais… Et s'il y avait encore 3 éléphants dans le pré mais qu'ils étaient cachés derrière les arbres ? Nous rejetterions notre hypothèse nulle alors qu'elle pourrait être vraie si, au lieu de compter les éléphants, nous avions calculé le nombre maximum d'éléphants que la prairie peut accueillir.
Analyse
Les 10 éléphants choisis au départ ont été totalement arbitraires car nous n'avons pas vu la taille de la prairie et, par conséquent, nous ne savons pas si 10 éléphants, c'est beaucoup ou peu.
En revanche, si, compte tenu de la taille de la prairie, on calcule le nombre maximum d'éléphants qu'elle peut accueillir, on saura quelle est la valeur maximale pour ne pas rejeter l'hypothèse nulle. Ainsi, trouver le vrai nombre sera beaucoup plus facile.
Comparaison
Il en va de même pour les niveaux de signification de 1 %, 5 % et 10 % par rapport à la valeur p. Dans de nombreux contrastes, nous choisissons le niveau de signification sans prendre en compte d'autres informations que la distribution. Normalement, 5% est utilisé comme niveau de signification (alpha), laissant 95% de l'échantillon dans l'intervalle de confiance.
Le problème de l'attribution arbitraire du niveau de signification est le même problème que nous avons avec l'exemple de l'éléphant. Si nous pensons qu'il est correct d'appliquer 5 % (niveau de significativité), nous pouvons rejeter l'hypothèse nulle lorsque le minimum à rejeter est de 2 % (valeur p). Nous obtiendrions des résultats erronés simplement en fixant 5% au lieu de la valeur minimale à rejeter (2%).
Autrement dit, nous concluons qu'il y a moins de 10 éléphants dans le pré mais en réalité il y a 3 éléphants de plus mais ils sont cachés. Ainsi, il est beaucoup plus rapide de calculer quel est le niveau de signification maximum ou minimum pour lequel nous ne rejetterions pas ou nous rejetterions l'hypothèse nulle.
Règle de rejet
Si valeur - p < niveau de signification => rejet H0.
Si valeur - p > niveau de signification => Pas de rejet H0.