Extract, transform, load
Extract, transform, load (ETL) è un'espressione in lingua inglese che si riferisce al processo di caricamento dei dati in un data warehouse.
I dati vengono estratti da sistemi sorgenti quali database transazionali (OLTP), comuni files di testo o da altri sistemi informatici (ad esempio, sistemi ERP o CRM).
Subiscono quindi un processo di trasformazione, che consiste ad esempio nel:
- Selezionare solo quelli che sono di interesse per il sistema
- Tradurre dati codificati
- Derivare nuovi dati calcolati
- Eseguire join tra dati recuperati da differenti tabelle
- Raggruppare i dati
Tale trasformazione ha lo scopo di consolidare i dati (cioè rendere omogenei dati provenienti da sorgenti diverse) e di fare in modo che siano più aderenti alla logica di business del sistema di analisi per cui viene sviluppato il data warehouse.
Vengono infine memorizzati nelle tabelle del data warehouse (load).
Le informazioni vengono aggregate in modo da non avere un dettaglio eccessivo (cosa che potrebbe portare ad un decadimento delle prestazioni delle interrogazioni effettuate sul data warehouse), ma mantenendo comunque una granularità che consenta di effettuare analisi precise sui dati.