Dans le monde du traitement de données, il existe 2 approches en apparence similaires, avec des philosophies très différentes , et aux implications nombreuses :
- ETL : Extract,Transform, Load
- ELT : Extract, Load, Transform
À travers une interview passionnante avec Daniel Pituello (lien de l'itw ci-contre), un expert en BI et Talend, nous avons exploré les nuances de ces méthodes.
Quelles différences entre ces méthodes ?
Comment concrètement appliquer un mode ETL ? Et un mode ELT ?
Cet article vise à reprendre les concepts vu dans l'entretien,
afin de démystifier ces possibilités.
Et à illustrer leur application concrète, le tout saupoudré d'une touche ludique pour une compréhension aisée.
Talend, dans l'arsenal des développeurs, est principalement reconnu comme un outil ETL.
Mais qu'implique réellement cette étiquette?
L'ETL, ou Extract, Transform, Load, est un processus en trois étapes :
Talend excelle dans cette chorégraphie, orchestrant le traitement des données avec une finesse qui permet une manipulation intensive avant leur stockage.
La Distinction Cruciale avec l'ELT
L'ELT, pour sa part, modifie l'ordre des opérations :
Cette subtile réorganisation des étapes a des implications profondes sur le traitement des données.
Avec l'ELT, c'est la puissance de calcul de la base de données cible qui est mise à contribution pour la transformation, ce qui peut offrir des avantages en termes de performance lorsque cette base est particulièrement robuste.
Et que la volumétrie justifie cette utilisation.
Comment appliquer la méthode ELT ?
Il y a 2 manières d'appliquer des principes ELT :
Via Talend
- des composants classiques, via des requêtes SQL exécutées sur la BDD cible
- ou alors les composants ELT (tELTInput, tELTMap et tELTOutput)
Via la BDD
- des instructions directement sur la BDD, comme des procédures stockées
Moteur ETL (Talend) vs. Moteur de Base de Données
Daniel met en lumière une règle empirique : dans 80% des cas, faire travailler le moteur de la base de données s'avère plus rapide que de procéder à une extraction via un outil ETL externe comme Talend.
Cette supériorité s'explique par la capacité des bases de données à gérer efficacement de grandes quantités de données, surtout lorsqu'elles sont correctement structurées et indexées.
Cependant, cette performance ne doit pas occulter un autre aspect essentiel : la maintenabilité et la lisibilité du code.
Un équilibre doit être trouvé entre performance et facilité de maintenance.
Dans le cas de traitements volumineux, il est souvent judicieux de charger rapidement les données puis de les traiter directement en BDD.
Avec des procédures stockées (PS) ou des scripts SQL, comme on l'a vu plus haut.
Cas d'usage : Intégrer 10m de lignes/jour
Imaginez la tâche gourmande d'intégrer quotidiennement 10 millions de lignes de commandes, factures, et devis, pour un client, géant de l'industrie.
Le projet, bien que passionnant, était confronté à un défi majeur: les données étaient en constante évolution, et il fallait chaque jour renvoyer uniquement le différentiel par rapport à la veille.
La complexité était exacerbée par l'impossibilité de détecter les modifications directement à la source.
Daniel et son équipe ont optés pour un changement de stratégie : passer de la méthode classique ETL vers la méthode ELT.
En utilisant Talend pour charger les données directement dans SQL Server, puis en appliquant des transformations SQL pour identifier et intégrer uniquement les modifications nécessaires, le temps de traitement a été réduit de manière spectaculaire : de 5 heures à seulement 15 minutes.
Lien vers l'article pour plus de détails.
Faire le bon choix
L'expertise de Talend dans le domaine de l'ETL offre aux développeurs une flexibilité et une puissance inégalées pour le traitement des données.
Comprendre la différence entre ETL et ELT est essentiel pour choisir l'approche la plus adaptée à chaque projet.
Connaitre puis maitriser ces notions et implications peut faire une immense différence dans votre quotidien, comme on l'a vu dans ce cas d'usage qui n'est pas rare.
Avec cet éclairage, nous espérons que vous êtes mieux armés pour naviguer dans le vaste océan des données avec Talend comme compas.
À PROPOS
Le collectif de freelances experts en intégration de données.
Créé avec © systeme.io