Data Science - Qu'est-ce que c'est, définition et concept

La science des données est une discipline qui étudie la provenance d'une certaine base d'informations. Il explique également comment ces ressources peuvent être interprétées et représentées pour une utilisation productive.

C'est-à-dire que la science des données est liée à la gestion des bases de données, stockées dans des fichiers numériques, à partir desquelles de nombreuses informations utiles peuvent être extraites en tant qu'indicateurs statistiques. Ceux-ci peuvent aider, par exemple, une entreprise à prendre des décisions commerciales.

De même, la science des données fournit des outils qui permettent non seulement d'interpréter, mais aussi de représenter, par exemple, en images, les données disponibles. Ainsi, nous avons l'histogramme, le diagramme à barres, le camembert, entre autres.

Comme on peut le déduire, cette science est interdisciplinaire puisqu'elle recouvre principalement les connaissances mathématiques, statistiques et informatiques.

Science des données et types de données

A noter également que la data science peut travailler avec deux types de données :

  • Structuré : Ce sont ceux qui sont organisés, comme ces tableaux avec différentes colonnes, chacune avec une catégorie différente telle que : nom, prénom, âge, numéro de pièce d'identité, etc.
  • Non structuré : Ceux qui ne correspondent pas à un certain format, comme un texte librement écrit. Dans ce cas, vous devez interpréter le contenu et extraire les données qui peuvent être gérées.

Compte tenu de tout ce qui a été expliqué, les professionnels spécialisés en science des données doivent non seulement avoir des compétences analytiques, mais ils doivent être capables de communiquer le contenu des informations qu'ils ont traitées.

Importance de la science des données

La science des données est importante pour les entreprises ou les institutions qui doivent travailler avec une grande quantité de données. Ainsi, ceux-ci peuvent devenir des informations précieuses.

On peut rapprocher la science des données du Big Data, qui consiste à développer des mécanismes capables de traiter et de gérer des données massives provenant de sources diverses. L'objectif est de les convertir en informations susceptibles d'être interprétées par l'être humain et qui l'aident à prendre des décisions.

Ces données à traiter peuvent provenir de transactions entre individus et organisations (telles que des opérations bancaires), d'actions quotidiennes de personnes (telles que des recherches sur Internet), de machines (telles que le GPS du téléphone portable qui enregistre où l'utilisateur a été) ou d'informations biométrique (comme l'empreinte digitale).

Histoire de la science des données

On peut dire que le statisticien américain John Wilder Tukey a été le pionnier de la science des données dans les années 1960, soulignant l'importance d'analyser les données plutôt que de tester des modèles statistiques.

Cependant, ce n'est qu'en 1996 que le terme science des données est utilisé pour la première fois dans le titre d'une conférence, dans l'exposé intitulé : « Science des données, classification et méthodes associées ». Ceci, dans le cadre de la réunion des membres de la ‘Fédération Internationale des Sociétés de Classification’ (IFCS) tenue à Kobe, Japon.

Un autre jalon important est survenu en 2005 lorsque « Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century » a été publié par le National Science Board. Dans ce document, les scientifiques des données sont définis comme des experts en informatique, des programmeurs de bases de données et de logiciels, et des professionnels d'autres disciplines (comme les bibliothécaires et les archivistes), qui sont essentiels à la gestion réussie d'une collecte de données numériques.

Cependant, il s'agit d'un domaine d'étude encore en développement.

Articles Populaires

Fini les mensonges : 89 % des fonds n'ont pas battu le marché

Au cours des 15 dernières années, 89 % de tous les fonds d'investissement aux États-Unis n'ont pas réussi à battre le S&P Composite 1500. Dans cet article, nous allons voir comment les fonds ont évolué par catégorie et expliquer, de manière simple, quelle en est l'interprétation de ces nombres. Ce serait une erreur de penser que l'objectifLire la suite…