Hadoop : l'écosystème

Formation : 13866

RÉFÉRENCE INTERNE DE LA FORMATION :

IBD07

Description de la formation

  • Disposer d'une vision claire des différents éléments de l'écosystème Hadoop, projet Open Source initié par Google, destiné à faciliter le stockage, l’exploitation et l’analyse de très grands volumes d’information hébergés sur plusieurs machines en réseaux
  • Être à l’aise avec les concepts et termes propres à Hadoop et comprendre les rôles et les interactions des différents composants d’Hadoop au travers d’exemples significatifs

Introduction
Rappels sur NoSQL
Le théorème CAP
Historique du projet hadoop
Les fonctionnalités : stockage, outils d'extraction, de conversion, ETL, analyse, ...
Exemples de cas d'utilisation sur des grands projets
Les principaux composants : HDFS pour le stockage et YARN pour les calculs
Les distributions et leurs caractéristiques : HortonWorks, Cloudera, MapR, GreenPlum, Apache, ...

Architecture
Terminologie : NameNode, DataNode, ResourceManager
Rôle et interactions des différents composants
Présentation des outils :
. d'infrastructure (ambari, avro, zookeeper)
. de gestion des données (pig, oozie, falcon, pentaho, sqoop, flume)
. d'interfaçage avec les applications GIS
. de restitution et requêtage : webhdfs, hive, hawq, impala, drill, stinger, tajo, mahout, lucene, elasticSearch, Kibana
Les architectures connexes : spark, cassandra

Exemples interactifs
Démonstrations sur une architecture Hadoop multi-noeuds.
Mise à disposition d'un environnement pour des exemples de calcul
Travaux pratiques : Recherches dans des données complexes non structurées

Applications
Cas d'usages de Hadoop
Infrastructures hyperconvergées avec les appliances Hadoop
Calculs distribués sur des clusters Hadoop

Destinataires de la formation

Cette formation s'adresse à toute personne souhaitant comprendre les mécanismes Hadoop et le rôle de chaque composant dans un projet Big Data.

Pré-requis


Mots-clés en rapport avec la formation

formation hadoop apache , hadoop , big data