Test de Kolmogorov - Smirnoff (K-S)

Le test de Kolmogorov-Smirnoff (K-S) est un test non paramétrique qui vise à déterminer si la fréquence de deux ensembles de données différents suit la même distribution autour de leur moyenne.

En d'autres termes, le test de Kolmogorov-Smirnoff (K-S) est un test qui s'adapte à la forme des données et permet de vérifier si deux échantillons différents suivent la même distribution.

Pourquoi est-ce un test non paramétrique ?

La beauté de la caractéristique « non paramétrique » est qu'elle s'adapte aux données et, par conséquent, aux distributions qui peuvent suivre la fréquence des données. De plus, cette fonctionnalité nous évite d'avoir à assumer a priori quelle distribution l'échantillon suit-il.

Importance du test K-S

Combien de fois avons-nous reçu deux échantillons et calculé le coefficient de corrélation de Pearson sans y réfléchir à deux fois ? En d'autres termes, si nous voulons voir la relation linéaire entre deux ensembles de données, il serait juste de calculer la corrélation, n'est-ce pas ?

Cette déduction serait vraie si les distributions des deux échantillons suivaient une distribution normale. Le coefficient de corrélation suppose que les distributions sont normales, si nous sautons cette hypothèse, le résultat du coefficient de corrélation est faux. Pour les tests d'hypothèse et les intervalles de confiance, nous supposons également que la population est distribuée selon une distribution normale.

Comme tous les tests d'hypothèses qui impliquent des statistiques, il est important d'avoir un grand volume de données pour avoir des résultats statistiquement significatifs. Nous pouvons rejeter par erreur une hypothèse nulle parce que l'échantillon est petit. De plus, il est également important que cet échantillon contienne des cas extrêmes (valeurs aberrantes, en anglais) pour donner de la cohérence au résultat du test.

Procédure de test

La procédure des prochaines étapes.

Hypothèse

La première étape consistera à vérifier si les deux échantillons ont la même distribution. Pour ce faire, nous effectuons un test d'hypothèse en supposant que les deux échantillons ont la même distribution contre l'hypothèse alternative qu'ils sont différents.

Statistique

Nous travaillons avec les fonctions de distribution cumulative de deux échantillons, F1(x) et F2(X):

Ne pas paniquer! Nous analysons calmement la formule ci-dessus :

  • La partie importante de la formule est la signe de différence (-). Nous recherchons des différences verticales dans les distributions. Nous allons donc soustraire les deux fonctions de distribution cumulative.
  • le opérateur "max". Nous sommes intéressés à trouver la différence la plus grande ou maximale pour voir à quel point les deux distributions peuvent être différentes.
  • le valeur absolue. On utilise la valeur absolue pour que l'ordre des opérateurs n'altère pas le résultat. En d'autres termes, peu importe quel F (x) a le signe négatif :

Valeur critique

Pour les grands échantillons, il existe une approximation de la valeur critique pour K-S qui dépend du niveau de signification (%) :

1 et n2 sont la taille de l'échantillon pour l'échantillon F1(x) et F2(x) respectivement.

Quelques valeurs critiques calculées :

Règle de rejet

Application

Très souvent, nous voulons tester si deux distributions sont suffisamment différentes l'une de l'autre lorsque nous voulons construire des scénarios de prédiction (nous travaillons avec deux échantillons) ou lorsque nous voulons évaluer quelle distribution correspond le mieux aux données (nous travaillons avec un seul échantillon).

Vous contribuerez au développement du site, partager la page avec vos amis

wave wave wave wave wave