Une statistique suffisante pour un paramètre Θ est une statistique capable de collecter ou de résumer toutes les informations que contient l'échantillon d'une variable aléatoire X.
Nous savons qu'une statistique est une fonction réelle de l'échantillon. C'est-à-dire qu'il prend des valeurs réelles contenues dans l'échantillon. A partir de là, comme nous l'avons vu dans l'article dans lequel la notion de statistique est définie, il faut s'assurer que le statisticien possède certaines propriétés. Pourquoi exiger de telles propriétés ? Pour s'assurer que la statistique est utile à nos fins.
La suffisance est l'une de ces propriétés. De manière beaucoup plus simple, nous dirons qu'une statistique est suffisante si elle utilise toutes les informations contenues dans l'échantillon.
Comment savoir si une statistique suffit ?
Logiquement, la question qui se pose est : comment puis-je savoir si une statistique T remplit la propriété de suffisance ? Ou Comment puis-je trouver, si elle existe, une statistique qui remplit la propriété de suffisance. La réponse à ces deux questions se trouve dans deux théorèmes :
- Critère de factorisation de Fisher-Neyman : Ce critère stipule qu'étant donné une statistique T, si elle remplit certaines conditions, alors ce sera une statistique suffisante.
- Théorème de Darmois : Ce théorème répond à la deuxième question. C'est-à-dire qu'il nous permet de trouver une statistique suffisante à travers une série de procédures.
Exemple de statistique suffisante
Supposons que nous voulions calculer le revenu annuel moyen des familles résidant au Chili. Pour ce faire, nous suivrons le processus suivant :
- Recueillir des informations (échantillon) : Comme nous ne pouvons pas demander à chacune des familles résidant au Chili combien elles gagnent annuellement, nous prendrons un échantillon représentatif de, par exemple, 1 000 familles.
- Identifiez la variable aléatoire à l'étude : La variable aléatoire à l'étude est le revenu familial. Ainsi : X → Revenu familial
- Choisissez la bonne statistique : La statistique appropriée pour calculer le revenu moyen n'est autre que l'espérance de X. En d'autres termes, la moyenne de l'échantillon de X.
- Comment puis-je savoir si la statistique moyenne de l'échantillon est une statistique suffisante ? Comme nous avons déjà l'expression mathématique de la statistique, nous utiliserons le critère de factorisation de Fisher-Neyman. Ou, le théorème de Darmois. Ce sont des formules créées à cet effet.
Après avoir appliqué les calculs appropriés, nous concluons que la statistique moyenne de l'échantillon satisfait à l'exigence ou à la propriété de suffisance. En veillant à ce qu'il réponde à cette exigence, on s'assure que cette fonction (statistique), qui permet de synthétiser l'information (le revenu moyen), utilise toutes les informations contenues dans l'échantillon (les 1 000 familles).
Pourquoi est-il important que j'utilise toutes les informations de l'échantillon ?
Maintenant que nous savons que la moyenne de l'échantillon est une statistique suffisante, supposons un cas. Quel sens cela aurait-il de vouloir calculer le revenu moyen sur la base de ces 1 000 familles chiliennes et que nous n'utilisions que les données de 500 familles?
Bien sûr, cela n'aurait aucun sens. Nous voulons un résumé de toutes les informations. C'est-à-dire ce que nous avons défini comme une statistique suffisante.