#1.10 Le mot de la semaine : donnée non structurée

3:13
 
Partager
 

Manage episode 260161348 series 2649675
Par Philippe Nieuwbourg, découvert par Player FM et notre communauté - Le copyright est détenu par l'éditeur, non par Player F, et l'audio est diffusé directement depuis ses serveurs. Appuyiez sur le bouton S'Abonner pour suivre les mises à jour sur Player FM, ou collez l'URL du flux dans d'autre applications de podcasts.

Une donnée non-structurée est une donnée, c’est à dire un élément, représenté d’une manière à en faire un traitement automatisé, qui sert de base à un raisonnement (voir le terme Donnée). Mais une donnée non structurée est impossible à utiliser directement pour un traitement ou une analyse, elle doit d’abord être convertie en données structurées. Une donnée non structurée, c’est une image, un fichier audio, un texte, une vidéo, etc. Prenons l’exemple d’une image globale de votre magasin pendant l’ouverture. Elle contient des informations intéressantes, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Mais aucune de ces informations n’est directement accessible par l’ordinateur à partir du fichier image. La donnée « image » est une simple suite de 0 et 1, non structurée. Elle n’est pas compréhensible directement par l’ordinateur. C’est la même chose pour le corps d’un email, le rapport d’activité rédigé sous Word, une vidéo de surveillance sur les quais du métro, le bruit enregistré par un capteur sonore à côté d’une machine dans une usine… Tout cela fait partie de la catégorie des données non structurées. Ces données ne peuvent pas être stockées dans une base de données relationnelle (voir ce terme) qui impose un modèle de données (voir ce terme) et une structure. D’autres outils peuvent en revanche accueillir des données non structurées : les fichiers plats, les bases NoSQL, Hadoop (voir ces termes). Mais les outils d’analyse et de reporting ne peuvent traiter que des données structurées (voir ce terme), des champs textes, des dates, des nombres. Avant toute analyse, une donnée non structurée doit être transformée en une ou plusieurs données structurées. Ce sont des algorithmes qui vont identifier et compter, dans l’exemple cité ci-dessus, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Cette phase est la transformation des données non structurées en données structurées. C’est également à cette étape que l’on constatera la qualité des données non structurées importées.

36 episodes