Les erreurs de spécification d'un modèle économétrique font référence aux différentes erreurs qui peuvent être commises lors de la sélection et du traitement d'un ensemble de variables indépendantes pour expliquer une variable dépendante.
Lorsqu'un modèle est construit, il doit remplir l'hypothèse de spécification correcte. Ceci est basé sur le fait que les variables explicatives retenues pour le modèle sont celles qui sont capables d'expliquer la variable indépendante. Par conséquent, on suppose qu'il n'y a pas de variable indépendante (x) qui peut expliquer la variable indépendante (y) et que de cette manière les variables qui permettent l'approche du modèle correct auraient été choisies.
Erreurs de spécification du modèle
Il existe un certain nombre d'erreurs dans la spécification du modèle qui pourraient être regroupées en trois grands groupes :
Groupe 1 : Le mode de fonctionnement n'est pas spécifié correctement
- Omission de variables pertinentes : Imaginons que nous voulions expliquer le rendement des actions de la société Y. Pour ce faire, nous sélectionnons le PER, la capitalisation boursière et la valeur comptable comme variables indépendantes. Si le flottant est corrélé avec l'une des variables contenues dans le modèle, l'erreur de notre modèle serait corrélée avec les variables incluses dans le modèle. Cela rendrait les paramètres estimés par le modèle non biaisés et incohérents. Ainsi, les résultats des prédictions et des différents tests effectués sur le modèle ne seraient pas valides.
- Variables à transformer : L'hypothèse du modèle de régression suppose que la variable dépendante est linéairement liée aux variables indépendantes. Cependant, à de nombreuses occasions, la relation entre ceux-ci n'est pas linéaire. Si la transformation nécessaire n'est pas effectuée sur la variable indépendante, le modèle n'aura pas le bon ajustement. Comme exemples de transformation de variables indépendantes nous avons la prise de logarithmes, la racine carrée ou la quadrature entre autres.
- Mauvaise collecte d'échantillons de données : Les données des variables indépendantes doivent être cohérentes dans le temps, c'est-à-dire qu'il ne peut y avoir de changements structurels des variables indépendantes. Imaginons que l'on veuille expliquer la variation du PIB dans le pays X en utilisant la consommation et l'investissement comme variables indépendantes. Supposons qu'un gisement de pétrole soit découvert dans ce pays sur des terres domaniales et que le gouvernement décide d'abolir les impôts. Cela pourrait entraîner un changement dans les habitudes de consommation du pays qui, à compter de cette date, se maintiendra indéfiniment dans le temps. Dans ce cas, nous devons collecter deux séries chronologiques différentes et estimer deux modèles. Un modèle avant le changement et un autre après. Si nous regroupions les données en un seul échantillon et évaluions un modèle, nous aurions un modèle mal spécifié et les hypothèses, les contrastes et les prédictions seraient incorrects.
Groupe 2 : Les variables indépendantes sont corrélées avec le terme d'erreur dans les séries chronologiques
- Utilisation de la variable dépendante avec décalage comme variable indépendante : Utiliser une variable avec un décalage, c'est utiliser les données des mêmes variables mais mesurées sur une période précédente. Supposons que nous utilisions le modèle précédent du PIB comme variable dépendante. Ajoutons au modèle, en plus de la consommation et de l'investissement, le PIB de l'année précédente (PIBt-1). Si le PIB de l'année précédente est corrélé en série avec l'erreur, les coefficients estimés seraient biaisés et ne seraient pas incohérents. Cela invaliderait à nouveau tous les tests d'hypothèses, prédictions, etc.
- Prédire le passé : Lorsque nous mesurons une variable, nous devons toujours prendre la période avant celle que nous voulons estimer. Supposons que notre variable dépendante soit les rendements de l'action X et que notre variable indépendante soit PER. Supposons en outre que nous prenions les données finales pour février. Si nous utilisons cela dans notre modèle, nous conclurons que le titre avec le PER le plus élevé à fin février avait les rendements les plus élevés à fin février. La spécification correcte du modèle implique de prendre les données du début de la période pour prédire les données ultérieures et non l'inverse comme dans le cas précédent. C'est ce qu'on appelle prédire le passé.
- Mesurer la variable indépendante avec erreur : Supposons que notre variable indépendante soit le rendement d'une action et que l'une de nos variables indépendantes soit le taux d'intérêt nominal. N'oubliez pas que le taux d'intérêt nominal est le taux d'intérêt majoré de l'inflation. Comme la composante inflation du taux d'intérêt nominal n'est pas observable à l'avenir, nous mesurerions la variable avec erreur. Pour mesurer correctement le taux d'intérêt, il faudrait utiliser le taux d'intérêt attendu et que celui-ci tienne compte de l'inflation attendue et non de l'inflation actuelle.