Un boxplot, de l'anglais, boxplot, est une représentation d'une variable quantitative ou catégorielle dans le but d'identifier rapidement les quartiles de l'ensemble de données.
En d'autres termes, une boîte à moustaches est un graphique qui représente une variable quantitative ou qualitative à travers les quartiles.
En statistique, c'est un outil utile pour représenter à la fois des ensembles de données discrets et continus.
Il est important de garder à l'esprit que les variables variables qualitatives ou qui sont destinées à représenter un ordre ou une catégorie doivent toujours être liées à un indice numérique supérieur à 0 pour qu'elles puissent apparaître sur le graphique et que les statistiques correspondantes puissent être calculées.
Boîte à moustaches et histogramme
Une boîte à moustaches n'est rien de plus qu'un histogramme vu de dessus, et de la même manière, un histogramme est une boîte à moustaches vue de côté. Un exemple peut être vu ci-dessous.
La première caractéristique que les deux graphiques partagent est le minimum et le maximum de l'ensemble de données. Les barres de fin après les tirets indiquent le minimum (barre inférieure) et le maximum (barre supérieure). Les valeurs aberrantes seraient représentées en dehors de la plage du maximum et du minimum. C'est-à-dire au-delà des barres après les tirets. On peut aussi trouver des box plots horizontaux.
En un coup d'œil, vous pouvez voir que la plupart des données sont centrées sur les observations proches du minimum dans les deux graphiques. Ceci est indiqué par la boîte à moustaches dans laquelle la boîte est plus proche du minimum que du maximum. Si nous regardons l'histogramme, nous verrons que les observations les plus fréquentes sont les observations qui sont proches du minimum et éloignées du maximum.
Informations sur la boîte à moustaches
Les informations fournies par le box plot sont les suivantes :
- Le bas de la boîte est le premier quartile (Q1).
- La barre au milieu de la boîte est la médiane ou deuxième quartile (Q2).
- Le haut de la boîte est le troisième quartile (Q3).
- L'intervalle interquartile ou IQR serait la hauteur de la boîte, c'est-à-dire la différence entre Q3 et Q1.
Clé de la boîte à moustaches
Cette représentation graphique est appelée boîte à moustaches car elle ressemble à une boîte. Par conséquent, pour se souvenir de ce graphique, nous n'aurions qu'à penser à un objet carré ou à une boîte.
Pour les lecteurs qui connaissent le prix des actifs financiers, ils verront plus de similitude avec une bougie. Les bougies que vous voyez dans la citation sont des boîtes à moustaches ajustées à la fenêtre de temps choisie.
Avantages et inconvénients du box plot
Parmi les avantages et les inconvénients de ce schéma on retrouve les suivants :
avantage
- Vision globalisée de la fréquence absolue d'une variable quantitative ou qualitative.
- Connaissance des minimum, maximum et quartiles de l'ensemble de données sans avoir à les calculer.
- Reconnaissance des valeurs extrêmes plus rapide qu'avec un histogramme car les valeurs extrêmes sont indiquées par des cercles en dehors du maximum et du minimum.
Désavantages
- Si l'ensemble de données est petit, créer une boîte à moustaches pour exprimer ces données le rendra plus difficile à comprendre.
Exemple de boîte à moustaches
On suppose que l'on veut représenter le nombre de cyclistes qui passent devant notre maison au cours d'une année. Tout d'abord, nous comptons les cyclistes et collectons les informations dans un tableau.
Grâce à certains programmes tels que R ou Excel, nous pouvons générer le graphique ci-dessous.
Grâce à la représentation du nombre de cyclistes à travers la box plot, on devine rapidement où se situe la médiane, les autres quartiles, le maximum et le minimum. Dans ce cas nous n'avons pas de données atypiques puisqu'au-delà du maximum et du minimum il n'y a rien.
L'application de ce type de graphique est très courante étant donné sa simplicité et son utilité dans de nombreux domaines au-delà de la finance et de l'économie.