Artwork

Contenu fourni par Philippe Nieuwbourg. Tout le contenu du podcast, y compris les épisodes, les graphiques et les descriptions de podcast, est téléchargé et fourni directement par Philippe Nieuwbourg ou son partenaire de plateforme de podcast. Si vous pensez que quelqu'un utilise votre œuvre protégée sans votre autorisation, vous pouvez suivre le processus décrit ici https://fr.player.fm/legal.
Player FM - Application Podcast
Mettez-vous hors ligne avec l'application Player FM !

#1.10 Le mot de la semaine : donnée non structurée

3:13
 
Partager
 

Manage episode 260161348 series 2649675
Contenu fourni par Philippe Nieuwbourg. Tout le contenu du podcast, y compris les épisodes, les graphiques et les descriptions de podcast, est téléchargé et fourni directement par Philippe Nieuwbourg ou son partenaire de plateforme de podcast. Si vous pensez que quelqu'un utilise votre œuvre protégée sans votre autorisation, vous pouvez suivre le processus décrit ici https://fr.player.fm/legal.

Une donnée non-structurée est une donnée, c’est à dire un élément, représenté d’une manière à en faire un traitement automatisé, qui sert de base à un raisonnement (voir le terme Donnée). Mais une donnée non structurée est impossible à utiliser directement pour un traitement ou une analyse, elle doit d’abord être convertie en données structurées. Une donnée non structurée, c’est une image, un fichier audio, un texte, une vidéo, etc. Prenons l’exemple d’une image globale de votre magasin pendant l’ouverture. Elle contient des informations intéressantes, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Mais aucune de ces informations n’est directement accessible par l’ordinateur à partir du fichier image. La donnée « image » est une simple suite de 0 et 1, non structurée. Elle n’est pas compréhensible directement par l’ordinateur. C’est la même chose pour le corps d’un email, le rapport d’activité rédigé sous Word, une vidéo de surveillance sur les quais du métro, le bruit enregistré par un capteur sonore à côté d’une machine dans une usine… Tout cela fait partie de la catégorie des données non structurées. Ces données ne peuvent pas être stockées dans une base de données relationnelle (voir ce terme) qui impose un modèle de données (voir ce terme) et une structure. D’autres outils peuvent en revanche accueillir des données non structurées : les fichiers plats, les bases NoSQL, Hadoop (voir ces termes). Mais les outils d’analyse et de reporting ne peuvent traiter que des données structurées (voir ce terme), des champs textes, des dates, des nombres. Avant toute analyse, une donnée non structurée doit être transformée en une ou plusieurs données structurées. Ce sont des algorithmes qui vont identifier et compter, dans l’exemple cité ci-dessus, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Cette phase est la transformation des données non structurées en données structurées. C’est également à cette étape que l’on constatera la qualité des données non structurées importées.

  continue reading

63 episodes

Artwork
iconPartager
 
Manage episode 260161348 series 2649675
Contenu fourni par Philippe Nieuwbourg. Tout le contenu du podcast, y compris les épisodes, les graphiques et les descriptions de podcast, est téléchargé et fourni directement par Philippe Nieuwbourg ou son partenaire de plateforme de podcast. Si vous pensez que quelqu'un utilise votre œuvre protégée sans votre autorisation, vous pouvez suivre le processus décrit ici https://fr.player.fm/legal.

Une donnée non-structurée est une donnée, c’est à dire un élément, représenté d’une manière à en faire un traitement automatisé, qui sert de base à un raisonnement (voir le terme Donnée). Mais une donnée non structurée est impossible à utiliser directement pour un traitement ou une analyse, elle doit d’abord être convertie en données structurées. Une donnée non structurée, c’est une image, un fichier audio, un texte, une vidéo, etc. Prenons l’exemple d’une image globale de votre magasin pendant l’ouverture. Elle contient des informations intéressantes, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Mais aucune de ces informations n’est directement accessible par l’ordinateur à partir du fichier image. La donnée « image » est une simple suite de 0 et 1, non structurée. Elle n’est pas compréhensible directement par l’ordinateur. C’est la même chose pour le corps d’un email, le rapport d’activité rédigé sous Word, une vidéo de surveillance sur les quais du métro, le bruit enregistré par un capteur sonore à côté d’une machine dans une usine… Tout cela fait partie de la catégorie des données non structurées. Ces données ne peuvent pas être stockées dans une base de données relationnelle (voir ce terme) qui impose un modèle de données (voir ce terme) et une structure. D’autres outils peuvent en revanche accueillir des données non structurées : les fichiers plats, les bases NoSQL, Hadoop (voir ces termes). Mais les outils d’analyse et de reporting ne peuvent traiter que des données structurées (voir ce terme), des champs textes, des dates, des nombres. Avant toute analyse, une donnée non structurée doit être transformée en une ou plusieurs données structurées. Ce sont des algorithmes qui vont identifier et compter, dans l’exemple cité ci-dessus, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Cette phase est la transformation des données non structurées en données structurées. C’est également à cette étape que l’on constatera la qualité des données non structurées importées.

  continue reading

63 episodes

Tous les épisodes

×
 
Loading …

Bienvenue sur Lecteur FM!

Lecteur FM recherche sur Internet des podcasts de haute qualité que vous pourrez apprécier dès maintenant. C'est la meilleure application de podcast et fonctionne sur Android, iPhone et le Web. Inscrivez-vous pour synchroniser les abonnements sur tous les appareils.

 

Guide de référence rapide