Cette formation est organisée par l’INSA (Institut national des sciences appliquées) de L’Université fédérale Toulouse Midi-Pyrénées. Son objectif est d’aborder et pratiquer une sélection des méthodes récentes de statistique et d’apprentissage machine appliquées à des données de grandes dimensions pour la fouille de données (data mining). Le programme peut être précisé à partir des mots-clefs ci-dessous en fonction des besoins et problématiques de l’entreprise ou des participants.

Objectifs

  • Techniques récentes d’exploration, classification non supervisé (clustering) et modélisation, prévision.
  • Les applications sont réalisées avec le langage R ou en Python sous la forme de calepins (notebook jupyter) exécutables.

 

Pré-requis

Les prérequis, a minima, sont ceux d’un enseignement scientifique à Bac+2 avec un contenu en Statistique mais le stage peut aussi être calibré à Bac+4 ou Bac+5, au niveau de la formation dispensée en Science des Données dans la spécialité Mathématiques Appliquées de l’INSA Toulouse.

Programme

Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.

Compétences

  • Être capable de sélectionner et d’appliquer les méthodes
    récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.
  • Être capable de sélectionner et d’appliquer les méthodes
    récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.
  • Être capable de sélectionner et d’appliquer les méthodes
    récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.

Inscription

fcq@insa-toulouse.fr – Tél : +33 (0)5 61 55 92 53

Niveau
Cycle
Langue

Français

Lieu

INSA,
135 Avenue de Rangueil,
31400 Toulouse,

Durée et dates

8 au 10 décembre 2021

ou sur demande

Tarif

À partir de 1 500€
Déjeuners et documents pédagogiques inclus
Remise de 10% pour les partenaires ANITI

Modalités

Présentiel

Publics

Ingénieurs, informaticiens, etc.

Intervenants

Mélisande Albert
https://perso.math.univ-toulouse.fr/albert/
Béatrice Laurent-Bonneau
http://perso.math.univ-toulouse.fr/laurent/
Olivier Roustant
Home

Professeurs au département Génie Mathématiques et Modélisation – INSAT
Institut de Mathématiques de Toulouse

Contact

fcq@insa-toulouse.fr

Categories:

fr_FRFrench