Data Engineer
Certification
Formation certifiante délivrant un titre à finalité professionnelle reconnu par l'Etat et inscrit au répertoire national des certifications professionnelles : Data Engineer
Présentation
Le métier de Data Engineer se retrouve sur l’ensemble du cycle de vie de la donnée et aujourd’hui, la donnée est partout, permettant aux entreprises d'accroître le suivi de leur performance via des indicateurs toujours plus nombreux, d’analyser des comportements clients et par là même d’identifier des opportunités de marché.
Dans ce contexte, les entreprises ont besoin de mobiliser des compétences spécifiques pour collecter des données, les stocker, les modéliser ou encore les protéger. Le métier de Data Engineer, à l'heure du Big Data et de l'intelligence artificielle, connaît un très fort développement car il répond à un enjeu stratégique pour le futur de l'économie et des entreprises. Les besoins en matière de recrutement sont très élevés face à une pénurie de profils adaptés. Les 4 blocs de compétences de la certifcation prennent en compte l’évolution des compétences de ce métier, contribuent aussi à sécuriser le parcours professionnel du Data Engineer et permettent de développer des connaissances pointues sur le management des données et une maîtrisent fine des techniques et infrastructures associées.
Compétences visées
C1.1 Qualifier les données grâce à des outils d’analyse et de visualisation de données en vue de vérifier leur adéquation avec le projet d’analyse
C1.2 Concevoir une base de données analytique* avec l’approche orientée requêtes en vue de la mise à disposition des données pour un traitement analytique ou d’intelligence artificielle
C1.3 Programmer l’import de données initiales nécessaires au projet en base de données, afin de les rendre exploitables par un tiers, dans un langage de programmation adapté et à partir de la stratégie de nettoyage des données préalablement définie.
C2.1 Définir le cadre d’exploitation des données en accord avec la stratégie data de l’entreprise en identifiant les données, les métadonnées, les usages, afin de les formaliser dans un référentiel commun.
C2.2 Analyser le cadre d’exploitation des données, les contraintes techniques et financières, le volume et la nature des données afin de contribuer à la définition du cadre technique adapté aux ressources mobilisables
C2.3 Concevoir un système de veille technologique permettant de collecter, classifier et analyser l’information afin d’améliorer la prise de décisions techniques.
C3.1 Modéliser la structure des données d’un entrepôt de données à partir des axes d'analyse donnés (les dimensions) avec leurs attributs ainsi que les éléments à analyser (les faits), à l’aide des modélisations adaptées.
C3.2 Créer un entrepôt de données à partir des paramètres du projet, des contraintes techniques et matérielles, et de la modélisation de la structure des données nécessaire au besoin en analyse de l’entreprise
C3.3 Intégrer les ETL* nécessaires en entrée et en sortie d’un entrepôt de données afin de garantir la qualité et le bon formatage des données en accord avec les modélisations logiques et physiques préalablement établies
C3.4 Gérer l’entrepôt de données à l’aide des outils d’administration et de supervision, afin de garantir les bons accès, l’intégration des évolutions structurelles et son maintien en condition opérationnelle dans le temps
C3.5 Implémenter les variations dans les dimensions de l’entrepôt de données en appliquant la méthode adaptée en fonction du type de changement afin d’historiser les changements structurels dans les données opérationnelles et ainsi garantir une bonne capacité d’analyse
C4.1 Concevoir l'architecture du data lake afin de répondre aux besoins identifiés par l’entreprise, aux contraintes techniques de l’environnement professionnel, en sélectionnant les technologies appropriées en fonction de la volumétrie, de la variété et de la vitesse des données
C4.2 Intégrer les différents composants d'infrastructure du data Lake, afin d’assurer l’acquisition, le stockage et la mise à disposition du catalogue de données
C4.3 Gérer le catalogue des données en tenant compte de leur nature, des sources d’alimentation et du cycle de vie
C4.4 Implémenter les règles de gouvernance des données en sécurisant la recherche, la récupération et l’ajout de données en fonction des droits et rôles définis par la gouvernance des données de l’entreprise et par la législation en vigueur
Programme
Les compétences acquises sont directement mobilisables par le stagiaire à l’issue de la formation, dans son retour en poste.
En fonction de la nécessité d’axer le déroulé de la formation sur des sujets en particulier lors d’une formation dédiée à une entreprise, le programme de formation pourra être contextualisé aux besoins et outils identifiés, et des intervenants extérieurs pourront également intervenir.
Le programme est structuré autour de 5 modules. Chaque module de formation donne lieu à des mises en situtions d'apprentissages de natures variées, d’une durée et d’une complexité progressive, se concluant par un livrable.
MODULE 1 : Les différents modèles de données et leurs cas d'utilisation
“Je suis capable de sélectionner le bon modèle de données en fonction du besoin l”
Ce premier module vise à donner les clés à l'apprenant des différents modèles de données qu'il sera amené à exploiter.
Modèle relationnel
- Enjeu d'intégrité : gestion des transactions dans un système de production OLTP (OnLine Transaction Processing Database)
- Opérations CRUD (Create Read Update Delete)
- Normalisation des données
- Modèle logique, conceptuel et physique de données
- Requêtes SQL DDL (Data Definition Language) et DML (Data Manipulation Language)
Modèles pour l'analyse de données
- Dénormalisation et NoSQL
- Schéma on Read vs Schéma on Write
- OLAP (Online Analytical Processing) et modèle Multidimensionnel
MODULE 2 : Nettoyage et analyse exploratoire de données
“Je suis capable de préparer les données en vue de leur exploitation"
Ce second module permet à l'apprenant de sélectionner, nettoyer et intégrer des données dans une base de données adaptée à l'aide d'outils spécialisés
Boite à outils du data engineer
- Systèmes de versionning
- Logiciels d'analyse et de visualisation (Par ex: R, Python, Knime)
- Sources et formats de données : Open Data, csv, xls, odt, json
Analyse exploratoire et nettoyage
- Types de données
- Données qualitatives et quantitatives
- Valeurs manquantes et aberrantes
- Visualisation
MODULE 3 : Informatique décisionnelle
"Je suis capable de mettre en place un outil d'aide à la décision"
Ce troisième module permet d'acquérir les compétences nécessaires à la mise en place d'un data warehouse et de son alimentation à partir d'un cadre d'exploitation défini
Data warehousing
- Analyse d'un cadre d'exploitation
- Faits et dimensions
- Schéma en étoile
- Architecture technique
- Rapports et tableaux de bord
Alimentation
- Principes de l'ETL (Extract Transform Load)
- Sources d'entrée et zones de sortie
- Outils d'ETL
MODULE 4 : Cadre technique d'exploitation
"Je comprends et formalise les enjeux de l'entreprise"
Ce quatrième module permet à l'apprenant de recenser et formaliser les besoins spécifiques en exploitation de la donnée
Recueil du besoin
- L'entreprise, ses fonctions et ses services
- Techniques d'entretien
- Veille sectorielle et technique
Formalisation du cadre technique d'exploitation
- Inventaire systématique
- Les référentiels et leur structure
- Droit de la donnée
- Conception d'un cahier des charges
MODULE 5 : Le Big Data et ses applications
"Je maitrise les V du Big Data"
Enjeux du Big Data
- Volume : architectures distribuées
- Vitesse : du batch au streaming
- Variété : gestion de données hétérogènes
Outils du Big Data
- Principes du Map Reduce
- Écosystème Hadoop et Spark
- Formats de fichiers optimisés
Data Lake
- Schéma d'architecture
- Catalogue de données
- Gouvernance du data lake
Admission
À titre indicatif, la durée de la formation est de :
- pour un parcours avec une période d'alternance : 6mois en intensif +12 mois en alternance
- pour un parcours sans alternance : 12 mois de formation intensive incluant une période d'application en entreprise (PAE).
La durée peut être adaptée selon le positionnement et le contexte du parcours.
La certification est constituée de 4 blocs de compétences.
Chaque bloc de compétence est validé par une ou plusieurs modalités d’évaluation suivantes adaptées aux compétences :
- Le projet professionnel (E1) de gestion des données d’un projet data, est évalué par une soutenance orale du projet réalisé de 15 min incluant une démonstration technique et fonctionnelle de la réalisation, suivi de 10 minutes de questions libres du jury au candidat.
- Le projet professionnel (E2) de formalisation du cadre d’exploitation des données et de création d’un entrepôt de données est évalué par une présentation orale du projet réalisé de 20 min incluant une démonstration technique et fonctionnelle de la réalisation, suivi de 15 minutes de questions libres du jury au candidat.
- Cas pratique 1 (E3) : dans le cadre d’une situation professionnelle fictive, à partir d’un entrepôt de données existant, le monitorage, les évolutions techniques et l’implémentation de variations dans les structures de données sont évalués à l’issue d’un cas pratique réalisé en formation. Il fait l'objet d'un compte-rendu et d'un échange de 05 minutes avec le jury
- Cas pratique 2 (E4) : dans le cadre d’une situation professionnelle fictive travaillée en formation, à partir d’un cadre d’exploitation des données et d’un cadre technique donné d’une entreprise, la mise en place d’un data lake est évaluée à l’issue d’un cas pratique réalisé en formation. Il fait l'objet d'un compte-rendu et d'un échange de 10 minutes avec le jury.
Pour les personnes en situation de handicap
Les formations Simplon sont ouvertes à toutes et tous, inclusives et accueillantes pour les personnes en situation de handicap. Concernant les modalités physiques de la formation,c’est environ 7h par jour de station assise, dans un open space (donc parfois bruyant), avec la nécessité de se déplacer dans la salle et d’éventuellement transporter son ordinateur. Concernant les modalités organisationnelles, il y a possibilité de télétravail ou, en présentiel, d’isolement dans une salle pour se reposer, même s’il y a la nécessité de travailler régulièrement en groupe.
La mise en place d’aménagements est possible, n'hésitez pas à prendre contact avec l'équipe de la Fabrique. En fonction des aménagements, ceux-ci se font soit uniquement avec le ou la référente handicap et l’équipe pédagogique soit avec l’appui des Services Public de l’Emploi et les partenaires spécialisés (Agefiph et ressource Handicap Formation).
Prix de la formation
Formation et passage de la certification gratuits grâce aux partenaires financeurs de la formation et aux fonds de financement de la formation.
(Pour les financeurs de la formation professionnelle des demandeurs d'emploi : 15 à 25€ de l'heure selon la qualification visée et l'accompagnement à mobilise)
Nous pouvons aussi mettre en place des sessions de formation pour des groupes de salariés dans les entreprises, veuillez nous contacter directement.
Sur certaines sessions, cette formation peut être financée - sans reste à charge pour le candidat - par différents dispositifs : Plan de formation de l'entreprise, AIF, CPF (formation éligible au CPF - Compte Personnel de formation - pour les salariés et les demandeurs d’emploi). Cherchez les sessions en cliquant sur voir les sessions ouvertes, et contactez la Fabrique concernée pour en connaître les modalités.