Analyse de cluster - Qu'est-ce que c'est, définition et concept

L'analyse typologique est un ensemble de techniques statistiques multivariées qui visent à regrouper un ensemble de cas ou d'individus en grappes ou en grappes.

L'analyse typologique est donc un type de regroupement statistique. L'objectif est de rendre les données de chaque cluster aussi similaires que possible les unes aux autres et aussi différentes que possible par rapport aux autres groupes. Cela peut aussi être fait avec des variables.

Transformation de données dans l'analyse de cluster

L'un des problèmes que nous rencontrons lorsque nous regroupons des données est que les données sont parfois dans différentes unités de mesure. Pour cette raison, une étape d'analyse de pré-cluster doit être effectuée pour permettre le clustering.

La méthode la plus courante est la standardisation. Ceci est utilisé pour transformer les données afin qu'elles aient des unités de mesure similaires. Deux règles doivent être prises en compte, les variables binaires ne sont pas standardisées et, si elles sont catégorielles, elles deviennent binaires (présence/absence).

Méthodes d'analyse de cluster

Il existe de nombreuses méthodes pour effectuer l'analyse de cluster, mais dans Economy-Wiki.com, suivant le principe de simplicité qui nous caractérise, nous verrons la plus pertinente de manière schématique.

Méthodes hiérarchiques

Une première classification serait des méthodes hiérarchiques ou non hiérarchiques. Les premiers regroupent les individus en phases hiérarchiques (d'où leur nom). De cette façon, un seul objet change de groupe à la fois, le reste restant au même endroit.

Ceux-ci, à leur tour, sont classés en:

Méthodes d'agglomération

Il consiste à regrouper les individus en moins de cluster à chaque fois. Il part d'un nombre de groupes égal au nombre de cas et est décroissant.

Les plus connus sont :

  • Méthode du plus proche voisin: Dans ce cas, vous utilisez un algorithme pour regrouper les données. Ce que vous recherchez, c'est la distance minimale entre les individus les plus proches. Il est très sensible aux données qui peuvent provoquer ce qu'on appelle du "bruit". La méthode du voisin le plus éloigné est similaire.
  • Méthode moyenne entre les groupes: Ce qu'il fait, c'est calculer la moyenne de la distance entre les individus d'un groupe et l'un d'eux en particulier. Il est très utile pour réduire le soi-disant "bruit".
  • La méthode de Ward: Ce qu'il fait, c'est additionner les carrés des écarts entre chaque individu et la moyenne de son cluster, pour éviter la perte d'informations. Elle est l'une des plus connues et présente les avantages de la méthode basée sur la moyenne, mais un pouvoir discriminant plus important.

Méthodes dissociatives

Dans ce cas, ce que vous faites, c'est diviser. Il commence par un seul cluster et des divisions sont proposées en fonction d'une série d'exigences.

Les plus courants sont :

  • Moyenne inter-groupe, méthode du plus proche voisin et du plus proche voisin: Ces trois méthodes sont similaires au cas précédent, mais utilisant la méthode dissociative. C'est-à-dire que cette fois, ce que nous faisons est séparé et non groupé.
  • Méthode centroïde: Il est largement utilisé dans les problèmes d'optimisation de l'emplacement des installations. Utilisez ce type d'analyse pour trouver les plus appropriées.

Méthodes non hiérarchiques

Dans ce cas, ils commencent par une solution prédéfinie. C'est le point de départ de l'analyse de cluster. De cette façon, les groupes sont établis à l'avance et chaque cas sera placé dans l'un d'eux, en fonction de ses caractéristiques. À leur tour, nous pouvons les diviser en d'autres sous-groupes.

  • Méthodes de réaffectation: Les plus pertinentes sont les méthodes centroïdes, telles que k-means. Ceux des médioïdes, comme PAM. Ou celui des nuages ​​dynamiques.
  • Méthodes directes: Le plus important est le clustering par blocs, largement utilisé dans l'exploration de données.
  • Méthodes réductrices: Ceux-ci sont basés sur une analyse factorielle.
  • Méthodes de recherche de densité: D'une part il y aurait celles des approches typologiques, comme l'analyse modale. De l'autre, nous avons les probabilistes, comme celle de Wolf.

Exemples d'analyse de cluster

Voyons enfin quelques exemples d'applications d'analyse de cluster.

  • Imaginons que nous ayons un groupe de pays que nous voulons regrouper en fonction de certaines variables macroéconomiques, comme l'inflation ou le chômage. On peut utiliser ce type d'analyse pour faire des groupes homogènes, par exemple des pays plus ou moins développés.
  • Un autre exemple pourrait être une série de consommateurs présentant certaines caractéristiques sociodémographiques. L'idée est de créer des groupes avec des individus similaires et qui, à leur tour, sont très différents les uns des autres.
  • Mais en plus de l'économie, l'analyse de cluster est utile dans d'autres sciences. Par exemple en biologie, pour classer les espèces, ou en géologie, pour faire de même avec les minéraux.

Vous contribuerez au développement du site, partager la page avec vos amis

wave wave wave wave wave