Le théorème de Gauss-Markov est un ensemble d'hypothèses qu'un estimateur OLS (Moins Carrés Ordinaires) doit remplir pour être considéré comme ELIO (Optimal Linear Unbiased Estimator). ETe théorème de Gauss-Markov a été formulé par Carl Friederich Gauss et Andrei Markov.
Carl Friederich Gauss et Andréi Márkov ont établi quelques hypothèses pour qu'un estimateur OLS puisse devenir ELIO.
Si ces 5 hypothèses sont remplies, on peut affirmer que l'estimateur est celui avec la variance minimale (la plus précise) de tous les estimateurs linéaires et sans biais. En cas d'échec de l'une des hypothèses des trois premières (Linéarité, Exogénéité stricte à moyenne nulle ou Pas de multicolinéarité parfaite), l'estimateur MCO n'est plus sans biais. Si seulement 4 ou 5 échouent (homoscédasticité et pas d'autocorrélation), l'estimateur est toujours linéaire et sans biais, mais il n'est plus le plus précis. En résumé, le théorème de Gauss-Markov énonce que :
- Sous les hypothèses 1, 2 et 3, l'estimateur MCO est linéaire et sans biais. Maintenant, tant que les trois premières hypothèses sont remplies, il peut être assuré que l'estimateur est sans biais. Pour que l'estimateur soit cohérent, nous devons avoir un grand échantillon, le plus sera le mieux.
- Sous les hypothèses 1, 2, 3, 4 et 5, l'estimateur OLS est linéaire, sans biais et optimal (ELIO).
Hypothèses du théorème de Gauss-Markov
Concrètement, il y a 5 hypothèses :
1. Modèle linéaire dans les paramètres
C'est une hypothèse assez souple. Il permet d'utiliser les fonctions des variables d'intérêt.
2. Moyenne nulle et exogénéité stricte
Cela implique que la valeur moyenne de l'erreur conditionnelle aux explications est égale à la valeur attendue inconditionnelle et est égale à zéro. De plus, l'exogénéité stricte exige que les erreurs du modèle ne soient corrélées à aucune observation.
Null signifie :
Exogénéité stricte :
La moyenne nulle et l'exogénéité stricte échouent si :
- Le modèle est mal spécifié (omission de variables pertinentes par exemple).
- Il y a des erreurs de mesure dans les variables (les données n'ont pas été revues).
- Dans les séries chronologiques, l'exogénéité stricte échoue dans les modèles d'endogénéité retardée (bien qu'une exogénéité contemporaine puisse exister) et dans les cas où il y a des effets de rétroaction.
Dans les données transversales, il est beaucoup plus facile de réaliser l'hypothèse d'exogénéité que dans le cas des séries chronologiques.
3. Pas de multicolinéarité exacte
Dans l'échantillon, aucune des variables explicatives n'est constante. Il n'y a pas de relations linéaires exactes entre les variables explicatives. Cela n'exclut pas une certaine corrélation (pas parfaite) entre les variables. Selon Gauss et Markov, lorsqu'un modèle a une multicolinéarité exacte, cela est généralement dû à une erreur d'analyste.
4. Homoscédasticité
La variance de l'erreur, et donc de Y, est indépendante des valeurs explicatives et, en plus, de la variance de l'erreur constante. Mathématiquement, il s'exprime ainsi :
Voici une série de données d'apparence homoscédastique.
5. Pas d'autocorrélation
Les termes d'erreur de deux observations différentes conditionnées à X ne sont pas liés. Si l'échantillon est aléatoire, il n'y aura pas d'autocorrélation.
Où je dois avoir une valeur différente de h. Si l'échantillon est aléatoire, les données et les erreurs d'observation "i" et "h" seront indépendantes pour toute paire d'observations "i" et "h".