P-value - Qu'est-ce que c'est, définition et concept

La valeur p, de l'anglais, valeur p, est le niveau de signification non arbitraire minimum avec lequel nous pouvons rejeter l'hypothèse nulle (H0) étant donné une fonction de distribution et une statistique de test.

En d'autres termes, la valeur p est la probabilité minimale définie par la distribution avec laquelle nous pouvons rejeter l'hypothèse nulle (H0) sans avoir à définir a priori le niveau de signification pour le contraste.

Si vous vous en souvenez, vous vous souviendrez que l'aire sous la courbe de la fonction de distribution est une probabilité. Ainsi, de ce point de vue, la valeur p sera la probabilité d'observer une telle statistique de test extrême pour que l'hypothèse nulle soit vraie.

Domaine

Étant donné que la valeur p est une probabilité, cette valeur sera comprise entre 0 et 1.

Pas arbitraire

Contrairement aux niveaux de signification que nous sommes plus habitués à voir, tels que 1 %, 5 % et 10 %, la valeur p dépend de la fonction de distribution de la statistique de test. Ainsi, les niveaux de 1%, 5% et 10% sont décidés au début du contraste. Cette sélection est dite arbitraire.

Formule de valeur p

La valeur p n'est pas une valeur unique comme la valeur critique, mais dépendra de la statistique. Pour différentes valeurs de la statistique de test, la valeur critique sera la même. D'autre part, pour différentes valeurs de la statistique de test, la valeur p sera également différente, car la valeur p dépend de la valeur que prend la statistique de test.

Où,

  • D, est une variable aléatoire qui suit une certaine distribution.
  • d, est la valeur de la statistique de test.

Calcul

Il est possible de calculer la p-value à la main mais il faudrait des tables de distribution très précises, c'est-à-dire avec de nombreuses décimales car la p-value a tendance à être petite. La plupart des programmes statistiques ont déjà incorporé la valeur p et elle apparaît normalement dans la sortie des résultats d'estimation par les moindres carrés ordinaires (MCO). Cela peut sembler difficile à utiliser, mais avec de la pratique, c'est un outil très utile.

Pour calculer la valeur p, nous avons besoin de :

  • Statistique de contraste.
  • La distribution de la statistique de contraste et la connaissance de ses paramètres.

Règle de rejet

Si p-valeur < niveau de signification => rejet H0.

Si p-valeur > niveau de signification => Pas de rejet H0.

Représentation

Dans le cas d'une distribution t de Student avec 2 degrés de liberté et une statistique de contraste égale à 3, la probabilité de trouver une telle statistique extrême lorsque l'hypothèse nulle (H0) est vraie est de 4,77 %.

En d'autres termes, si l'hypothèse nulle (H0) était vraie, une statistique aussi grande que 3 ne serait observée que 4,77 % du temps.

Pourquoi est-ce appelé valeur p?

Le nom de la valeur p trouve son origine dans la définition qui fait référence à l'aire sous la courbe de la fonction de distribution en dehors de l'intervalle de confiance. Ensuite, puisque cette zone est la probabilité minimale de rejeter l'hypothèse nulle, le « p » de la valeur p fait référence à la probabilité. Et, puisque la p-value correspond à un nombre, et donc à une valeur, le mot "valeur" de p-value est attribué au chiffre numérique. Dans certains livres, nous pouvons trouver une "valeur de probabilité" se référant à la valeur p. Peut-être que dire "probabilité minimale de rejeter l'hypothèse nulle" était trop long et n'avait aucun mystère pour les étudiants…