Étant donné une variable aléatoire X, un échantillon aléatoire simple est un ensemble de variables aléatoires, indépendantes et identiquement distribuées, obtenues à partir de la variable aléatoire X et qui sont distribuées de la même manière qu'elle.
Formellement, la définition précédente est celle qui définit un échantillon aléatoire simple. Maintenant, en fait, le concept peut être défini plus simplement. Bien entendu, pour bien comprendre le concept d'échantillon aléatoire simple, il est important de le définir précisément.
La définition formelle étant complexe, nous allons dérouler chaque partie de la définition petit à petit.
Le concept d'échantillon aléatoire simple étape par étape
Ainsi, en premier lieu, nous devons tenir compte du fait qu'un échantillon aléatoire simple est un échantillon. En tant qu'échantillon, il est obtenu à partir d'une variable aléatoire. Nous avons appelé cette variable aléatoire X. Un exemple de variable aléatoire pourrait être la note en mathématiques des élèves du secondaire. Par conséquent, la première partie de la définition est claire. Un échantillon aléatoire simple est un échantillon obtenu à partir de n'importe quelle variable aléatoire.
La deuxième partie de la définition est plus complexe. Surtout, par les notions d'"aléatoire indépendant et identiquement distribué". Le concept d'aléatoire signifie chance. Comme l'échantillon a été obtenu de manière aléatoire, les variables sont par conséquent aléatoires. Le concept d'indépendant fait référence au fait que les données obtenues ne sont pas liées les unes aux autres. C'est-à-dire que le choix d'une certaine donnée ne dépend pas des données précédemment choisies ou qui seront choisies ultérieurement. Enfin, identiquement distribué fait référence à la distribution statistique étant la même.
En résumé, nous avons qu'un échantillon aléatoire simple est un échantillon qui a été obtenu de manière totalement aléatoire. Ainsi, les données qui composent l'échantillon ne sont pas liées entre elles et héritent des caractéristiques de la variable aléatoire de population X.
Pourquoi le concept d'échantillon aléatoire simple est-il si important ?
Lorsqu'on veut faire des recherches sur certaines caractéristiques d'un ensemble de données, la qualité de l'échantillon est primordiale. Pour que les métriques calculées et donc les conclusions de la recherche soient fiables, nous devons disposer de ce que l'on appelle un échantillon représentatif. C'est-à-dire un échantillon qui représente adéquatement les caractéristiques de la population totale.
L'une des principales caractéristiques d'un échantillon représentatif est qu'il est aléatoire. Par conséquent, la connaissance du concept d'échantillon aléatoire simple est d'une importance vitale pour que notre étude soit valable dans la communauté scientifique.
Exemple d'échantillon aléatoire simple
Supposons que nous voulions réaliser une étude sur les salaires mensuels des citoyens d'un pays. Notre variable aléatoire sera le salaire mensuel des citoyens.
Le concept d'échantillon découle de l'impossibilité de demander à chacun des citoyens d'un pays. Cela demanderait beaucoup de temps ou beaucoup de ressources financières. Alors au lieu de demander à 50 millions de personnes, nous avons décidé d'en demander 50 000.
Une fois que nous avons défini la variable sur laquelle nous allons travailler et la population de données, nous devons procéder à l'obtention de l'échantillon. Il existe une littérature abondante sur l'obtention du bon échantillon. Mais, puisque l'objectif de cette définition est d'aborder cette notion de manière simple, nous n'entrerons pas dans le détail.
En simplifiant beaucoup, en général, nous aurons deux options. Ou demandez aux citoyens de manière totalement aléatoire ou choisissez un processus de sélection. Pour que l'échantillon réponde au critère du « aléatoire », nous devons le faire complètement au hasard. Nous ne pouvons pas choisir des villes, des zones, des quartiers ou quoi que ce soit.
Si nous choisissons consciemment le processus de sélection, notre échantillon sera probablement biaisé. La bonne chose à faire serait d'utiliser un outil qui extrait aléatoirement les noms des citoyens.
Une fois que nous avons notre échantillon aléatoire simple, nous devons travailler avec les données. C'est-à-dire faire une inférence statistique. Cette inférence statistique nous permettra de tirer des conclusions de l'étude. Par exemple, des affirmations telles que : « le salaire mensuel moyen en Espagne est de 1 200 euros » ou, « seuls 5 % des citoyens ayant les salaires les plus élevés gagnent l'équivalent des 30 % les plus pauvres ».
Tout cela avec une marge d'erreur évidente. Mais cela est déjà pris en charge par l'inférence statistique.