Outlier - Qu'est-ce que c'est, définition et concept

Une valeur aberrante est une observation anormale et extrême dans un échantillon statistique ou une série chronologique de données qui peut potentiellement affecter l'estimation de ses paramètres.

En termes plus simples, une valeur aberrante serait une observation au sein d'un échantillon ou d'une série chronologique de données qui ne sont pas cohérentes avec le reste. Imaginez, par exemple, que nous mesurions la taille des élèves d'une classe.

Imaginons un échantillon de 10 étudiants. La hauteur de chacun est la suivante :

Échantillon 1
ÉlèveHauteur en mètres
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

La taille moyenne de la classe serait de 1,73. Si l'on prend en compte la hauteur maximale (1,85) et la hauteur minimale (1,62) et la distance qui les sépare à la moyenne, on voit qu'elle est respectivement de 0,113 et 0,117. Comme nous pouvons le voir, la moyenne est approximativement au milieu de l'intervalle et pourrait être considérée comme une assez bonne estimation.

L'effet aberrant

Pensons maintenant à un autre échantillon de 10 étudiants, leurs tailles étant les suivantes :

Échantillon 1
ÉlèveHauteur en mètres
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

Dans ce cas, la taille moyenne de la classe serait de 1,81. Si nous regardons maintenant la hauteur maximale (2,20) et la hauteur minimale (1,62) et la distance qui les sépare de la moyenne, nous voyons qu'elle est respectivement de 0,39 et 0,18. Dans ce cas, la moyenne n'est plus approximativement au milieu de la plage.

L'effet des 2 observations les plus extrêmes (2.18 et 2.20) a fait que la moyenne arithmétique s'est déplacée vers la valeur maximale de la distribution.

Avec cet exemple, nous voyons l'effet que les valeurs aberrantes ont et comment elles peuvent fausser le calcul d'une moyenne.

Comment détecter les valeurs aberrantes ?

Comment corriger l'effet des valeurs aberrantes

Dans des situations comme celle-ci où il existe des valeurs anormales qui sont sensiblement différentes des autres, la médiane est une meilleure estimation pour savoir à quel point un plus grand nombre d'observations sont concentrés.

Dans le cas des deux distributions et puisque nous avons un nombre pair de valeurs, nous ne pouvons pas prendre exactement la valeur qui divise par deux la distribution pour calculer la médiane. Avec quoi, après avoir ordonné les valeurs de la plus basse à la plus élevée, nous prendrions la cinquième et la sixième observation (les deux laissent 4 observations de chaque côté) et nous calculerions la médiane comme suit :

Échantillon 1 :

1,75+1,72/2 = 1,73

Échantillon 2 :

1,79+1,71/2 = 1,75

Comme on peut le voir, dans l'échantillon numéro 1, étant donné qu'il n'y a pas de valeurs aberrantes ou d'observations anormales, la médiane est de 1,73 et coïncide avec la moyenne. Au contraire, pour l'échantillon 2, la moyenne est de 1,75. Comme nous pouvons le voir, cette valeur est plus éloignée de la hauteur moyenne, qui était de 1,81 et nous donne une estimation ponctuelle de meilleure qualité pour savoir approximativement à quel point un plus grand nombre d'observations sont concentrés.

Estimation ponctuelle

Articles Populaires

Les plus grandes entreprises du monde 2016

Avec une valeur de plus de 488 milliards d'euros et avec des clients aux quatre coins de la planète, Apple se place à nouveau en première position, en plus d'avoir été son meilleur exercice de son histoire. Il est suivi de près par Alphabet, dont la principale filiale est Google avec 448 milliards d'euros. Troisième Lire la suite…

La banque espagnole face à un carrefour financier

La volatilité de la Chine, la baisse du prix du pétrole et des matières premières, la hausse des taux d'intérêt aux États-Unis et l'incertitude qui envahit actuellement le paysage politique espagnol ne sont que quelques-uns des ingrédients qui définissent la revue économique de 2016. La la situation financière existante est devenue complexe. Bien que les banquesLire la suite…

Les grandes entreprises augmentent leur masse salariale en Espagne

Pour la première fois depuis le début de la crise, un grand nombre de multinationales espagnoles envisagent d'augmenter les rémunérations de leurs salariés. L'augmentation salariale approchera 1,6 %, dans une mesure qui vise à récupérer la confiance perdue du travailleur et à retenir le talent de la main-d'œuvre. Le fait est qu'après plusieursLire la suite…