Programme
Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.
Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.
Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.
Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.