Détecter les valeurs aberrantes en utilisant la distribution normale

La détection des valeurs aberrantes grâce à la distribution normale est un processus qui consiste à définir un seuil d'écart type et avec lequel il est prévu de trouver des valeurs extrêmes d'un échantillon.

En d'autres termes, détecter les valeurs aberrantes via la distribution normale revient à trouver les valeurs extrêmes d'un ensemble de données via la formule normale standardisée.

  • Les valeurs extrêmes sont appelés valeurs aberrantes en anglais.
  • Les valeurs interne sont appelés initiés en anglais.

La détection visuelle des valeurs aberrantes peut être une option lorsque vous disposez de très peu de données. Lorsque vous travaillez avec des bases de données, il est très peu pratique de devoir trouver les valeurs aberrantes manuellement. Pour résoudre ce problème, on peut calculer quelles sont les valeurs qui sont considérées comme extrêmes en les comparant à un seuil d'écarts.

Pour le cas de la distribution normale, une valeur est considérée comme extrême lorsqu'elle est à 3 écarts-types de la moyenne. Étant donné que la distribution normale a 2 queues, nous devons tenir compte du fait qu'elle peut être agrandie à la fois du côté négatif et du côté positif.

Formule pour détecter les valeurs aberrantes en utilisant la distribution normale

Un ensemble d'observations peut être exprimé de la manière précédente, où x est la valeur moyenne sur laquelle les valeurs oscillent et sigma la dispersion de l'oscillation desdites valeurs. En d'autres termes, sigma est la distance des observations à la valeur moyenne.

Le facteur multiplicatif détermine s'il s'agit d'une valeur aberrante ou d'un initié. Si z prend les valeurs de 3 ou -3, alors, selon la distribution normale, l'observation y sera une valeur aberrante.

Pour connaître la valeur de z on utilise l'équation précédente :

  • Si z> = 3 ou z = <-3, alors, selon la loi normale, on peut dire que Oui il s'agit d'une valeur extrême ou d'une valeur aberrante.
  • Si z <3 ou z <-3, alors, selon la loi normale, on peut dire que Oui est une valeur interne ou un initié.

Norme normale

L'équation ci-dessus est-elle familière?

Justement, c'est l'expression d'une observation qui suit une distribution normale une fois standardisée ou typée. On l'appelle ainsi parce que lors de la division par l'écart type ou l'écart type, la différence du numérateur est exprimée en termes d'écarts.

Pour cette raison, nous pouvons associer des valeurs d'écart à z et ainsi pouvoir l'acheter au seuil de 3 écarts.

Exemple

Trouvez les valeurs extrêmes des observations suivantes selon la distribution normale :

Nous représentons les observations sur un graphique :

Dès le départ, nous pouvons déjà voir que la valeur la plus éloignée du reste peut très probablement être une valeur aberrante.

On calcule d'abord la moyenne et l'écart type :

x = moyenne = 5,8

sigma = écart type = 10,51

Ensuite, nous substituons les valeurs dans la formule et calculons la valeur de z pour chaque observation :

Les valeurs ci-dessus sont les facteurs multiplicatifs de sigma, c'est-à-dire z. Tout ce qui est supérieur à 3 ou inférieur à -3 sera une valeur extrême.

On voit que la valeur de z qui dépasse 3 écarts types est celui correspondant à l'observation 49.

Par conséquent, la valeur extrême ou aberrante de l'ensemble de données serait de 49.

Vous contribuerez au développement du site, partager la page avec vos amis

wave wave wave wave wave