Une valeur aberrante est une observation anormale et extrême dans un échantillon statistique ou une série chronologique de données qui peut potentiellement affecter l'estimation de ses paramètres.
En termes plus simples, une valeur aberrante serait une observation au sein d'un échantillon ou d'une série chronologique de données qui ne sont pas cohérentes avec le reste. Imaginez, par exemple, que nous mesurions la taille des élèves d'une classe.
Imaginons un échantillon de 10 étudiants. La hauteur de chacun est la suivante :
Échantillon 1 | |
Élève | Hauteur en mètres |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
La taille moyenne de la classe serait de 1,73. Si l'on prend en compte la hauteur maximale (1,85) et la hauteur minimale (1,62) et la distance qui les sépare à la moyenne, on voit qu'elle est respectivement de 0,113 et 0,117. Comme nous pouvons le voir, la moyenne est approximativement au milieu de l'intervalle et pourrait être considérée comme une assez bonne estimation.
L'effet aberrant
Pensons maintenant à un autre échantillon de 10 étudiants, leurs tailles étant les suivantes :
Échantillon 1 | |
Élève | Hauteur en mètres |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
Dans ce cas, la taille moyenne de la classe serait de 1,81. Si nous regardons maintenant la hauteur maximale (2,20) et la hauteur minimale (1,62) et la distance qui les sépare de la moyenne, nous voyons qu'elle est respectivement de 0,39 et 0,18. Dans ce cas, la moyenne n'est plus approximativement au milieu de la plage.
L'effet des 2 observations les plus extrêmes (2.18 et 2.20) a fait que la moyenne arithmétique s'est déplacée vers la valeur maximale de la distribution.
Avec cet exemple, nous voyons l'effet que les valeurs aberrantes ont et comment elles peuvent fausser le calcul d'une moyenne.
Comment détecter les valeurs aberrantes ?Comment corriger l'effet des valeurs aberrantes
Dans des situations comme celle-ci où il existe des valeurs anormales qui sont sensiblement différentes des autres, la médiane est une meilleure estimation pour savoir à quel point un plus grand nombre d'observations sont concentrés.
Dans le cas des deux distributions et puisque nous avons un nombre pair de valeurs, nous ne pouvons pas prendre exactement la valeur qui divise par deux la distribution pour calculer la médiane. Avec quoi, après avoir ordonné les valeurs de la plus basse à la plus élevée, nous prendrions la cinquième et la sixième observation (les deux laissent 4 observations de chaque côté) et nous calculerions la médiane comme suit :
Échantillon 1 :
1,75+1,72/2 = 1,73
Échantillon 2 :
1,79+1,71/2 = 1,75
Comme on peut le voir, dans l'échantillon numéro 1, étant donné qu'il n'y a pas de valeurs aberrantes ou d'observations anormales, la médiane est de 1,73 et coïncide avec la moyenne. Au contraire, pour l'échantillon 2, la moyenne est de 1,75. Comme nous pouvons le voir, cette valeur est plus éloignée de la hauteur moyenne, qui était de 1,81 et nous donne une estimation ponctuelle de meilleure qualité pour savoir approximativement à quel point un plus grand nombre d'observations sont concentrés.
Estimation ponctuelle