Exploiter la complexité de grandes quantités de données constitue un défi en soi. Mais le Big Data est plus que cela : caractérisé à l’origine par les 3 V de Volume, Vélocité et Variété, il nécessite souvent des solutions informatiques dédiées, que nous explorerons dans ce module.

Objectifs

Après avoir suivi ce cours, les participants pourront :

  • mettre en oeuvre la distribution d’opérations simples via le principe Map/Reduce dans Spark
  • expliquer la différence entre les calculs avec le CPU et les calculs avec le GPGPU
  • se connecter sur un moteur de cloud computing (par exemple Google Cloud Platform) et lancer une tâche simple
  • comprendre l’utilité des conteneurs
  • déployer un conteneur Docker.

Pré-requis

Diplôme en génie informatique ou domaine connexe (télécommunications, etc.). OU
Diplôme d’ingénieur dans un autre domaine avec une dominante en informatique. OU
Expérience professionnelle dans le domaine informatique.

Programme

Calcul distribué avec Spark :

  • Histoire
  • Modèle MapReduce
  • Stack Hadoop
  • HSystème de fichier distribué de Hadoop (HDFS)
  • Bibliothèque d’apprentissage automatique MLib

Virtualisation et cloud computing :

  • Differentes approches to virtualisation
  • Modèles économiques
  • Avantages techniques (snapshots, déploiement et migration dynamiques, basculement sur incident etc .)
  • Moteur de cloud computing (principes, exemples de déploement, choix de noeuds)

Docker :

  • Histoire
  • Différences fondamentales par rapport à la virtualisation
  • Composants de Docker
  • Outils

Compétences

  • Concevoir une architecture d’entrepôt de données pour optimiser le stockage et la protection de données structurées ou non structurées.
  • Transformer les données de base dans des formats spécifiques pour permettre l’intégration de données provenant de sources multivariées.
  • Gérer les données historiques en utilisant des indicateurs pour garantir la disponibilité, la qualité et l’amélioration continue de la fiabilité des données.
  • Evaluer différentes solutions pour le formatage et le stockage des données en vue de favoriser leur traitement.
  • Utiliser les données stockées pour favoriser l’apprentissage par les machines.
  • Organiser le stockage et sécuriser l’accès des données pour en extraire le sens dans le respect des contraintes éthiques et légales.

Inscription

Natalia Perthuis

05 61 33 80 47

info.exed@isae-supaero.fr

Niveau
Cycle
Langue

Anglais

Lieu

ISAE–SUPAERO Toulouse

Durée et dates

Durée : 4 jours(28h)

Tarif

2300 €
Remise de 5% pour les
partenaires ANITI

Modalités

Présentiel

Publics

Jeunes diplômés
Demandeurs d’emploi et employés expérimentés

Intervenants
Contact

Jessica Alix

05 61 33 83 91

info.exed@isae-supaero.fr

Categories:

fr_FRFrench