Un intervalle de confiance est une technique d'estimation utilisée en inférence statistique qui permet de limiter une paire ou plusieurs paires de valeurs, à l'intérieur desquelles se trouvera l'estimation ponctuelle souhaitée (avec une certaine probabilité).
Un intervalle de confiance va nous permettre de calculer deux valeurs autour d'une moyenne d'échantillon (une supérieure et une inférieure). Ces valeurs limiteront une plage dans laquelle, avec une certaine probabilité, se situera le paramètre de population.
Intervalle de confiance = moyenne + - marge d'erreur
Connaître la vraie population, en général, est quelque chose de très compliqué. Considérons une population de 4 millions de personnes. Pourrait-on connaître la dépense moyenne de consommation par ménage de cette population ? En principe oui. Il faudrait simplement sonder tous les ménages et calculer la moyenne. Cependant, suivre ce processus serait extrêmement laborieux et rendrait l'étude assez compliquée.
Dans de telles situations, il est plus possible de sélectionner un échantillon statistique. Par exemple, 500 personnes. Et sur ledit échantillon, calculez la moyenne. Bien que nous ne connaissions toujours pas la valeur réelle de la population, nous pourrions supposer qu'elle sera proche de la valeur de l'échantillon. À cela, nous ajoutons la marge d'erreur et nous avons une valeur d'intervalle de confiance. D'un autre côté, nous soustrayons cette marge d'erreur de la moyenne et nous aurons une autre valeur. Entre ces deux valeurs se situera la moyenne de la population.
En conclusion, l'intervalle de confiance ne sert pas à donner une estimation ponctuelle du paramètre de population, s'il va nous aider à avoir une idée approximative de celui qui pourrait être le vrai. Il nous permet de limiter entre deux valeurs où se trouvera la moyenne de population.
coefficient de variationFréquence cumulativeFacteurs dont dépend un intervalle de confiance
Le calcul d'un intervalle de confiance dépend principalement des facteurs suivants :
- Taille de l'échantillon sélectionné : Selon la quantité de données qui a été utilisée pour calculer la valeur de l'échantillon, elle sera plus ou moins proche du véritable paramètre de population.
- Un niveau de confiance: Il nous informera dans quel pourcentage de cas notre estimation est correcte. Les niveaux habituels sont de 95% et 99%.
- Marge d'erreur de notre estimation : C'est ce qu'on appelle l'alpha et nous informe de la probabilité que la valeur de la population soit en dehors de notre aire de répartition.
- Les estimés dans l'échantillon (moyenne, variance, différence de moyennes…) : La statistique pivot pour le calcul de l'intervalle en dépendra.
Exemple d'intervalle de confiance pour la moyenne, en supposant la normalité et l'écart type connus
La statistique pivot utilisée pour le calcul serait la suivante :
L'intervalle résultant serait le suivant :
Nous voyons comment dans l'intervalle à gauche et à droite de l'inégalité, nous avons respectivement la limite inférieure et supérieure. Par conséquent, l'expression nous dit que la probabilité que la moyenne de la population se situe entre ces valeurs est 1-alpha (niveau de confiance).
Regardons mieux ce qui précède avec un exercice résolu comme exemple.
Vous voulez estimer le temps moyen qu'un coureur met pour terminer un marathon. Pour cela, 10 marathons ont été chronométrés et une moyenne de 4 heures avec un écart type de 33 minutes (0,55 heure) a été obtenue. Vous souhaitez obtenir un intervalle de confiance à 95 %.
Pour obtenir l'intervalle, nous n'aurions qu'à substituer les données dans la formule d'intervalle.
L'intervalle de confiance serait la partie de la distribution qui est ombrée en bleu. Les 2 valeurs délimitées par celui-ci seraient celles correspondant aux 2 lignes rouges. La ligne centrale qui divise la distribution en 2 serait la vraie valeur de la population.
Il est important de noter que dans ce cas, étant donné que la fonction de densité de la distribution N (0,1) nous donne la probabilité cumulée (de la gauche à la valeur critique), nous devons trouver la valeur qui nous laisse 0,975 sur le % de gauche (c'est 1,96).