SCIENCE DES DONNÉES (DATA MINING)

Objectifs

Techniques récentes d’exploration, classification non supervisé (clustering) et modélisation, prévision.
Les applications sont réalisées avec le langage R ou en Python sous la forme de calepins (notebook jupyter) exécutables.

Pré-requis

Les prérequis, a minima, sont ceux d’un enseignement scientifique à Bac+2 avec un contenu en Statistique mais le stage peut aussi être calibré à Bac+4 ou Bac+5, au niveau de la formation dispensée en Science des Données dans la spécialité Mathématiques Appliquées de l’INSA Toulouse.

Program

Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.
La formation alterne exposés méthodologiques des algorithmes concernés, et pratique sur des données réelles.

Introduction
* Changements de paradigmes en Statistique : data mining, apprentissage statistique, big data analytics.

Principales méthodes
* Exploration multidimensionnelle (analyse en composantes principales)
* Classification non supervisée (clustering) par méthode hiérarchique ou partitionnement dynamique
* Estimation d’une erreur de prévision et risque.
* Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation)
* Analyse discriminante décisionnelle et algorithme des k plus proches voisins
* Arbres binaires de décision (CART) pour la régression ou la classification
* Réseaux de neurones et introduction à l’apprentissage profond (deep learning)
* Agrégation de modèles (boosting, bagging, random forest)
* Introduction aux SVM (support vector machines ou séparateur à vaste marges)
* Détection d’anomalie ou d’observations atypiques
Étude de cas
En fonction des besoins et centres d’intérêt des participants.
* Pratique de ces méthodes avec le langage R et/ou Python sur différents types de jeux de données de complexité ou volume élémentaire à élevé : prédiction de pics d’ozones, reconnaissance d’activité humaine à partir de signaux enregistrés sur un smartphone, reconnaissance de caractère sur des images.

Compétences

Être capable de sélectionner et d’appliquer les méthodes
récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.
Être capable de sélectionner et d’appliquer les méthodes
récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.
Être capable de sélectionner et d’appliquer les méthodes
récentes de statistique et d’apprentissage machine pour des données de grandes dimensions.

Inscription

fcq@insa-toulouse.fr – Tél : +33 (0)5 61 55 92 53

Niveau
Cycle
Langue	Français
Lieu	INSA, 135 Avenue de Rangueil, 31400 Toulouse,
Durée et dates	Sur demande
Tarif	À partir de 1 500€ Déjeuners et documents pédagogiques inclus Remise de 10% pour les partenaires ANITI
Modalités	Présentiel
Publics	Ingénieurs, informaticiens, etc.
Intervenants	Mélisande Albert https://perso.math.univ-toulouse.fr/albert/ Béatrice Laurent-Bonneau http://perso.math.univ-toulouse.fr/laurent/ Olivier Roustant Home Professeurs au département Génie Mathématiques et Modélisation – INSAT Institut de Mathématiques de Toulouse
Contact	fcq@insa-toulouse.fr

SCIENCE DES DONNÉES (DATA MINING)

Published by Emilie Pereira on 9 November 20219 November 2021

Objectifs

Pré-requis

Program

Compétences

Inscription

News

La recherche ANITI rayonne dans les grandes conférences mondiales en IA

News

Esprit critique & IA génératives : retour sur le regard de quatre experts pour penser l’université de demain

News

ANITI’s Scientific Seminar

SCIENCE DES DONNÉES (DATA MINING)

Published by Emilie Pereira on 9 November 20219 November 2021

Objectifs

Pré-requis

Program

Compétences

Inscription

Related Posts

News

La recherche ANITI rayonne dans les grandes conférences mondiales en IA

News

Esprit critique & IA génératives : retour sur le regard de quatre experts pour penser l’université de demain

News

ANITI’s Scientific Seminar