Professional Data Engineer

Formation : 14945

RÉFÉRENCE INTERNE DE LA FORMATION :

IBS_PRO_DATA_ENGINEER

Description de la formation

Présentation :
Préparez-vous à exceller dans la certification Professional Data Engineer de Google Cloud avec cette formation complète.
Apprenez à concevoir, construire et gérer des systèmes de traitement de données robustes sur GCP, en intégrant sécurité, conformité et performance.
Grâce à des ateliers pratiques approfondis et un projet final immersif simulant un pipeline de données d’entreprise, vous maîtriserez les compétences évaluées : architecture, ingestion, stockage, analyse et automatisation.

Objectifs :
Concevoir des systèmes de données sécurisés et fiables
Construire et déployer des pipelines de données performants
Gérer le stockage et préparer les données pour l’analyse
Automatiser et optimiser les workloads de données
Réussir la certification Professional Data Engineer

Programme :
1 - Sécurité et conformité dans la conception
Gestion des identités avec Cloud IAM et politiques d’organisation
Sécurisation des données : chiffrement et gestion des clés
Respect de la confidentialité avec Cloud DLP et données sensibles
Considérations régionales pour la souveraineté des données
Travaux pratiques : configuration d’une politique IAM sécurisée
2 - Fiabilité et flexibilité des pipelines
Préparation des données avec Dataprep et Dataflow
Conception pour la tolérance aux pannes et la récupération
Flexibilité : mappage des besoins métier à l’architecture
Portabilité des données pour le multi-cloud
Travaux pratiques : nettoyage de données avec Dataprep
3 - Planification des pipelines de données
Définition des sources et sinks de données
Logique de transformation pour batch et streaming
Fondamentaux réseau pour l’ingestion
Chiffrement des données en transit et au repos
Travaux pratiques : planification d’un pipeline avec Pub/Sub
4 - Construction et déploiement des pipelines
Services clés : Dataflow, Dataproc, Cloud Data Fusion
Transformations batch vs streaming (windowing, late data)
Intégration de nouvelles sources de données
Orchestration avec Cloud Composer et CI/CD
Travaux pratiques : déploiement d’un job Dataflow streaming
5 - Choix et gestion du stockage
Sélection des systèmes : Bigtable, Spanner, Cloud Storage
Analyse des patterns d’accès pour optimiser le stockage
Gestion du cycle de vie des données (Nearline, Coldline)
Estimation des coûts et performances du stockage
Travaux pratiques : configuration d’une politique de cycle de vie Cloud Storage
6 - Data Warehouse et Data Lake
Modélisation des données pour BigQuery
Gestion d’un data lake avec Dataplex et Data Catalog
Normalisation et accès aux données selon les besoins
Concepts de data mesh pour une gouvernance fédérée
Travaux pratiques : création d’une table partitionnée dans BigQuery
7 - Préparation pour l’analyse
Préparation des données pour la visualisation (BI tools)
Utilisation des vues matérialisées dans BigQuery
Feature engineering pour le machine learning
Partage des datasets via Analytics Hub
Travaux pratiques : connexion de BigQuery à un outil BI
8 - Automatisation et optimisation
Création de DAGs avec Cloud Composer pour l’automatisation
Optimisation des coûts : slots flex vs flat rate
Choix entre clusters persistants ou temporaires (Dataproc)
Planification des jobs pour une exécution répétable
Travaux pratiques : configuration d’un DAG dans Cloud Composer
9 - Monitoring et résilience
Surveillance avec Cloud Monitoring et Logging
Gestion des erreurs : quotas, billing, jobs échoués
Tolérance aux pannes : réplication et failover
Résolution des problèmes de performance des queries
Travaux pratiques : création d’une alerte Monitoring pour BigQuery
10 - Projet : Pipeline de données d’entreprise
Conception d’un pipeline sécurisé avec Dataflow et Pub/Sub
Stockage et modélisation des données dans BigQuery
Automatisation via Cloud Composer et monitoring intégré
Présentation des résultats avec une visualisation simple
Réalisation et validation du projet

Destinataires de la formation

Data engineers
Architectes de données
Analystes
Candidats à la certification

Mots-clés en rapport avec la formation

Google Cloud Platform
Data engineer
BigQuery
Dataflow
Cloud Composer
Dataproc
Cloud Storage
IAM
DLP
Data lake
Data mesh
Analytics Hub
Monitoring GCP
Logging
Streaming
Batch
CI/CD
DAG
Dataprep
Certification Google Cloud
Professional Data Engineer