La méthode des variables instrumentales (VI) est utilisée pour résoudre le problème d'endogénéité d'une ou plusieurs variables indépendantes dans une régression linéaire.
L'apparition d'endogénéité dans une variable indique que cette variable est corrélée au terme d'erreur. En d'autres termes, une variable corrélée avec les autres a été omise. On parle de variables explicatives qui montrent une corrélation avec le terme d'erreur. Une autre méthode très populaire pour résoudre le problème d'endogénéité est l'estimateur des moindres carrés en deux étapes (LS2E). La fonction principale de VI est de détecter la présence d'une variable explicative dans le terme d'erreur.
Présentation du concept
Nous voulons étudier la variation des prix de forfaits de ski en fonction du nombre de pistes et de l'aversion au risque des skieurs reflétée dans la qualité de l'assurance. Les deux variables explicatives sont des variables quantitatives.
Nous supposons que nous incluons la variable assurance dans le terme d'erreur (u), résultant en :
Ensuite, la variable d'assurance devient une variable explicative endogène car elle appartient au terme d'erreur et, par conséquent, est corrélée avec lui. Puisque nous supprimons une variable explicative, nous supprimons également son régresseur, dans ce cas, B2.
Si nous avions estimé ce modèle avec les moindres carrés ordinaires (MCO), nous aurions obtenu une estimation incohérente et biaisée pour B0 et Bk.
Nous pouvons utiliser le modèle 1.A si nous trouvons une variable instrumentale (z) afin de des pistes remplissant:
- Cov (z, ou alors) = 0 => z n'est pas corrélé avec ou alors.
- Cov (z, des pistes) ≠ 0 => z oui c'est corrélé avec des pistes.
Cette variable instrumentale (z) est exogène au modèle 1 et n'a donc pas d'effet partiel sur le log (forfaits). Pourtant, il est pertinent d'expliquer la variation des pistes.
Contraste d'hypothèse
Pour savoir si la variable instrumentale (z) est statistiquement corrélée avec la variable explicative (indices), on peut tester la condition Cov (z, indices) ≠ 0 étant donné un échantillon aléatoire de la population. Pour cela, nous devons faire la régression entre des pistes Oui z. Nous utilisons une nomenclature différente pour différencier sur quelles variables sont renvoyées.
Nous interprétons le π0 Oui πk de la même manière que le B0 et Bk dans les régressions conventionnelles.
Nous comprenons π1 = Cov (z, pistes) / Var (z)
- Définition de l'hypothèse
Dans ce contraste, nous voulons tester s'il peut être rejeté π1 = 0 à un niveau de signification suffisamment faible (5 %). Par conséquent, si la variable instrumentale (z) est corrélée à la variable explicative (indices) et pour pouvoir rejeter H0.
2. Statistique de contraste
3. Règle de rejet
Nous déterminons le seuil de significativité à 5%. Par conséquent, notre règle de rejet sera basée sur | t | > 1,96.
- | t | > 1,96 : on rejette H0. C'est-à-dire que nous ne rejetons aucune corrélation entre z et les pistes.
- | t | < 1,96 : nous n'avons pas suffisamment de preuves significatives pour rejeter H0. C'est-à-dire que nous ne rejetons pas l'absence de corrélation entre z et les pistes.
4. Conclusion
Si nous concluons que π1 = 0, statistiquement la variable instrumentale (z) n'est pas une bonne approximation pour la variable endogène.