Cette formation est organisée par l’INSA (Institut national des sciences appliquées) de L’Université de Toulouse. Son objectif est d’aborder et pratiquer une sélection des méthodes récentes de statistique et d’apprentissage machine appliquées à des données de grandes dimensions pour la fouille de données (data mining). Le programme peut être précisé à partir des mots-clefs ci-dessous en fonction des besoins et problématiques de l’entreprise ou des participants.

Objectifs

  • Techniques récentes d’exploration, classification non supervisé (clustering) et modélisation, prévision.
  • Les applications sont réalisées avec le langage R ou en Python sous la forme de calepins (notebook jupyter) exécutables.

 

Pré-requis

Les prérequis, a minima, sont ceux d’un enseignement scientifique à Bac+2 avec un contenu en Statistique mais le stage peut aussi être calibré à Bac+4 ou Bac+5, au niveau de la formation dispensée en Science des Données dans la spécialité Mathématiques Appliquées de l’INSA Toulouse.

Program

Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.

Compétences

  • Être capable de sélectionner et d’appliquer les méthodes
    récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.
  • Être capable de sélectionner et d’appliquer les méthodes
    récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.
  • Être capable de sélectionner et d’appliquer les méthodes
    récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.

Inscription

fcq@insa-toulouse.fr – Tél : +33 (0)5 61 55 92 53

Niveau
Cycle
Langue

Français

Lieu

INSA,
135 Avenue de Rangueil,
31400 Toulouse,

Durée et dates

Sur demande

Tarif

À partir de 1 500€
Déjeuners et documents pédagogiques inclus
Remise de 10% pour les partenaires ANITI

Modalités

Présentiel

Publics

Ingénieurs, informaticiens, etc.

Intervenants

Mélisande Albert
https://perso.math.univ-toulouse.fr/albert/
Béatrice Laurent-Bonneau
http://perso.math.univ-toulouse.fr/laurent/
Olivier Roustant
Home

Professeurs au département Génie Mathématiques et Modélisation – INSAT
Institut de Mathématiques de Toulouse

Contact

fcq@insa-toulouse.fr

Categories:

en_GBEnglish