Signe statistique - Qu'est-ce que c'est, définition et concept

Un échantillon statistique est un sous-ensemble de données appartenant à une population de données. Statistiquement parlant, il doit être constitué d'un certain nombre d'observations qui représentent adéquatement l'ensemble des données.

La statistique, en tant que branche des mathématiques, est chargée de collecter les données, de les ordonner et de les analyser. En d'autres termes, lorsque nous voulons étudier un certain phénomène, nous nous tournons vers les statistiques. Un bon exemple de phénomène étudié par les statistiques est le salaire moyen des citoyens d'un pays

En ce sens, pour des raisons de temps et de coût, nous ne pouvons pas collecter toutes les données. Cet ensemble de données est ce qu'on appelle une population de données ou simplement une population.

Pourquoi travaillez-vous avec des échantillons statistiques ?

Pour expliquer pourquoi un échantillon statistique est utilisé au lieu de la population totale, nous recourrons à l'exemple évoqué ci-dessus.

Supposons que nous voulions étudier n'importe quel phénomène. Dans notre cas, ce phénomène est le salaire moyen des citoyens d'un pays. La population de données est composée de chaque travailleur dans le pays. Bien entendu, pour des raisons de temps et de coût, il serait impossible de demander à chaque travailleur quel est son salaire annuel. Cela prendrait beaucoup de temps ou nous aurions besoin de beaucoup de ressources.

C'est alors qu'apparaît la notion d'échantillon statistique. Au lieu de demander aux millions de travailleurs d'un pays ou d'une région, nous ne collectons qu'une petite quantité de données. Par exemple, nous avons interrogé 100 000 personnes. Cette tâche est encore compliquée, mais il est bien plus abordable de demander 100 000 personnes que de demander 30 millions.

Cette petite quantité de données doit être représentative. C'est-à-dire qu'il doit représenter adéquatement la population. Si les 100 000 personnes que nous avons interrogées sont concentrées dans des quartiers riches, nous obtiendrons des données qui ne seront pas représentatives. Le salaire moyen serait beaucoup plus élevé qu'il ne l'est réellement.

Caractéristiques d'un échantillon statistique représentatif

Si vous voulez faire de bonnes recherches, la qualité de l'échantillon statistique est essentielle. Il est inutile d'effectuer les métriques statistiques les plus complexes avec les modèles les plus sophistiqués si l'échantillon statistique est biaisé. C'est-à-dire si l'échantillon n'est pas représentatif.

Lors de l'obtention d'un échantillon représentatif, il y a certains aspects que le chercheur doit connaître à l'avance. Parmi ces aspects figurent les caractéristiques d'un échantillon représentatif. Les caractéristiques d'un échantillon représentatif sont les suivantes :

  • Taille assez grande : Lorsque nous travaillons avec des échantillons, nous travaillons normalement avec une quantité de données inférieure à la population. Cependant, pour qu'un échantillon statistique soit représentatif, il doit être suffisamment grand pour être considéré comme représentatif. Par exemple, si notre population est constituée de 10 millions de données et que nous en choisissons 10, il est difficile qu'elle soit représentative. Bien entendu, plus l'échantillon est grand n'est pas toujours plus représentatif.
  • Aléatoire : La sélection des données à partir d'un échantillon statistique doit être aléatoire. C'est-à-dire qu'il doit être totalement aléatoire. Si au lieu de le faire au hasard, nous effectuons un processus de sélection de données planifié, nous introduisons un biais dans la collecte de données. Par conséquent, pour éviter que l'échantillon soit biaisé et, par conséquent, pour en faire un échantillon représentatif, nous devons procéder à une sélection aléatoire.

Inférence statistique

Une fois obtenu nous avons l'échantillon représentatif, alors il faut en déduire certaines métriques. Souvent, nous sommes intéressés à connaître une certaine mesure d'une variable. Dans l'exemple initial, la variable serait le salaire des citoyens d'un pays. En ce sens, la métrique que nous voulons analyser est le salaire moyen des citoyens d'un pays.

En d'autres termes, nous avons une population de données composée de tous les travailleurs au Mexique. De cette population nous obtenons une variable, c'est-à-dire le salaire annuel. En utilisant les techniques appropriées, nous obtenons un échantillon représentatif. Et enfin, une fois que nous avons un ensemble de données avec lequel nous pouvons travailler, nous utilisons des techniques d'inférence statistique pour calculer le salaire moyen.

Bien sûr, une fois que nous avons l'ensemble de données, nous pourrions en déduire d'autres mesures. Par exemple, comment le salaire est distribué, quel pourcentage de travailleurs sont en dessous d'un certain salaire ou quelle est l'ampleur de l'écart salarial.

Exemple d'échantillon statistique

Supposons que nous voulions réaliser une étude sur les dépenses moyennes des familles colombiennes au mois de janvier. Pour cela, nous avons deux options :

  1. Entrez les comptes bancaires de toutes les familles en Colombie
  2. Demandez à un nombre représentatif de personnes

La première option n'est pas viable pour plusieurs raisons. Premièrement, que les familles ne vont pas abandonner leurs données et deuxièmement que nous ne pouvions pas non plus aller famille par famille en regardant les données. Principalement parce que la population de la Colombie avoisine les 50 millions d'habitants. Pendant ce temps, la seconde est la possibilité de collecter un échantillon statistique.

Ce que nous ferons, suivant les caractéristiques mentionnées ci-dessus, sera de demander à 100 000 familles. C'est un peu compliqué mais beaucoup plus facile que de demander à 50 millions de Colombiens. La différence est considérable. Ainsi, à partir de cet échantillon de 100 000 familles, nous tenterons de calculer la dépense moyenne des familles en janvier.

Les données extraites seront plus ou moins fiables selon une série de métriques qui sont prises en compte dans les enquêtes statistiques. Bien sûr, ces types de métriques sont plus avancés et, par conséquent, nous ne les aborderons pas ici.