Nipdev 17 – Une introduction au Machine Learning avec Vincent Heuschling
Manage episode 37423897 series 25707
Podcast: Téléchargement
Dans ce numéro, Vincent Heuschling nous parle de Machine Learning et nous en décrit les principes de base.
Contenu
-
Qu’est ce que le Machine Learning
Différence ML et stats (descriptives, Inférences, Bayes)
Data driven décision, dépasser le cadre de la Business Intelligence traditionnelle
pourquoi c’est Indispensable qd on a beaucoup de données
-
A quoi ça sert (rapidement)
Web – Personnalisation
Web – Recommandation
à lire :
http://www.mapr.com/practical-machine-learning
à ecouter : http://www.podcastscience.fm/dossiers/2012/04/25/les-algorithmes-de-recommandation/Modèles prédictifs
Segmentation marketing
-
Comment ça marche
Différences entre Supervisé et Non-supervisé
Classification
Regression
Similarité (recommenders)
Clustering
Co-occurence
Prédictions
Overfitting
-
Panorama des outils disponibles :
R avec Rstudio => l’option du statisticien, c’est pas à la base un outil de développeur. Facile à prendre en main, avec un bel environnement de travail
Python / Scikitlearn => l’option du développeur, orienté sur la construction d’applications
Hadoop / Mahout => La scalabilité infinie par le Map-Reduce
Spark (in-memory bigdata en scala, python et R, avec la bibliothèque MLLib ) => Les très hautes performances…
Les librairies Scala dédiées au ML et à l’analyse métier http://www.scalanlp.org/
Davavisualisation: http://d3js.org/
-
R
Scripté
Pas dans la JVM (important qd on travaille dans un contexte bigdata / hadoop)
RStudio
Très performant sur la manipulation de vecteurs, de matrices <= tout est matrice en ML
Un très grand nombre de bibliothèques techniques et ‘métier’ (la richesse majeure de R).
Outils pour la datavisualisation.
Des app web avec Shiny.
Une façon fun de découvrir R: https://www.datacamp.com/
Le pb de la scalabilité et des traitements distribués
Conférences sur le sujet:
O’Reilly Strata (http://strata.oreilly.com/)
41 episodes