Data lake, da un po’ nelle aziende aleggia questo termine. Magari non in tutte le aziende, certamente non in abbastanza. L’eco del termine, invece, risuona in quelle aziende che stanno comprendendo il valore dei Big Data.

I loro manager hanno capito che la raccolta e, soprattutto l’analisi dei dati generati dai vari touch point applicativi ha un impatto diretto sul business. Comprendere cosa ci dicono i dati permette di modificare le strategie per non lasciarsi sfuggire opportunità di business, o anche per scoprirne di nuove.

Ma capire cosa significa “data lake” non è immediato. Vediamo, allora, di chiarirlo e di fare le dovute distinzioni con un altro termine molto in voga: data warehouse.

Data lake: cos’è

Partiamo dalla definizione. Per data lake si intende un insieme enorme e variegato di dati grezzi provenienti dall’elaborazione di applicazioni e servizi. Potrebbero essere i dati di un Crm, i post dei social media, le chat con i consumatori, i dati di un Erp fino alle info delle macchine di produzione. Sono tutti dati grezzi, ovvero non interpretati, non elaborati e non normalizzati. Sono raccolti in un repository condiviso, una componente di archiviazione, in attesa di essere elaborati.

Gli specialisti che mettono le mani nei data lake sono i data scientist. Si tratta di figure con molteplici competenze, molto difficili da trovare, che hanno l’obiettivo di nuotare nei laghi di dati. Ma forse più che nuotare, i data scientist vanno a pescare con le reti i dati utili a determinati scopi e, soprattutto, li correlano.

La selezione nel data lake dei dati grezzi è un lavoro che viene eseguito con il supporto di applicazioni particolari, anche se è necessaria una forte componente umana. Inoltre, dipende dall’obiettivo che si vuole raggiungere. Vi possono essere diversi obiettivi contemporanei e vi sarà un sottoinsieme del data lake per ogni obiettivo. Dopo la selezione, si procede con l’elaborazione e l’interpretazione dei dati normalizzati, con il supporto di strumenti e tecniche particolari.

Data lake vs data warehouse

Abbiamo detto che anche data warehouse è un termine molto in voga tra le aziende che hanno compreso il valore dei big data. Dunque, ora è necessario definire anche data warehouse.

Le due tipologie di dati sono utilizzate per scopi diversi e hanno requisiti differenti. Mentre la struttura dei dati in un data lake è grezza, in un data warehouse i dati sono elaborati a priori dalle applicazioni. Il report di un Crm relativo a un cliente è un esempio di data warehouse. In un data lake la finalità della raccolta non è definita a priori, in un data warehouse sì.

Molto importante è anche il target di riferimento. I data lake sono accessibili solo ai data scientist, nessun’altro riuscirebbe a destreggiarsi. I data warehouse, invece si rivolgono ai professionisti aziendali, non necessariamente dei tecnici. I responsabili commerciali avranno accesso a uno specifico data warehouse, correlato alle applicazioni che utilizzano, mentre il reparto amministrativo accederà a un altro data warehouse.

LEGGI ANCHE: DATA MANAGEMENT, COME SI FA E PERCHE’ SI DEVE FARE

Altra differenza fondamentale è l’aggiornamento. Il data lake è facilmente accessibile ed è fluido, in costante aggiornamento. Il data warehouse, invece, prevede un accesso e un aggiornamento più complicato e anche più costoso. Questo perché il data warehouse, al contrario di un lago, è un bacino chiuso che viene aperto seguendo determinati processi.

Per loro natura, i data lake richiedono più spazio di storage rispetto ai data warehouse. E sono più malleabili, ovvero più indicati per operazioni automatiche eseguite dalle applicazioni. Un algoritmo di intelligenza artificiale, per esempio, potrà cibarsi di dati grezzi senza fare un plissé.

I data warehouse non occupano troppo spazio di archiviazione perché i dati sono filtrati nativamente e quelli non utilizzati non sono conservati. Ovviamente i data warehouse sono più comprensibili dei data lake.

La preparazione di un data lake

Un processo di preparazione di un data lake si sviluppa secondo questi step:

  • Data Ingestion. Acquisire dati in tempo reale o in batch per conservarli e per accedervi nel formato originario in cui sono prodotti.
  • Data Processing. Lavorare sui dati grezzi in modo che siano pronti per essere analizzati con procedure standard. Ma anche preparare i processi automatici e periodici di estrazione e di analisi.
  • Data Analysis. Creare modelli per l’estrazione sistematica delle informazioni dai dati.
  • Data Integration. Integrare alla piattaforma di gestione dei data lake gli applicativi che permettano di estrarre i dati in formati utilizzabili per scopi specifici.

La preparazione di un data warehouse

Chi si occupa di preparare un data warehouse generalmente esegue queste attività:

  • Comprende i processi di business su cui modellerà la reportistica.
  • Disegna il modello di data warehouse da implementare scegliendo quali dati estrapolare e mettere in relazione
  • Realizza l’ETL (extract, transform, load) ovvero il processo effettivo di estrazione, trasformazione e caricamento dei dati.
  • Rilascia le reportistiche standardizzate destinate ai professionisti aziendali.

I vantaggi del lago di dati

A questo punto sorge la domanda: quale deve essere l’approccio della mia azienda? Cosa mi serve, un lake o un warehouse?

Come sempre la risposta non è unica. Ci sono aziende che possono ottenere valore dai big data con un approccio ai data warehouse, ci sono quelle che non si accontentano e preferiscono puntare ai data lake.

I principali vantaggi nell’utilizzo dei data lake sono:

  • Maggiori informazioni. Vista la dimensione e l’eterogeneità dei data lake, va da sé che, se capaci, le informazioni che si possono trarre sono tantissime e di una qualità elevata.
  • Storage distribuito. Nonostante i data lake siano enormi, i costi di archiviazione sono contenuti perché i dati grezzi non devono necessariamente confluire in database che ingrassano a vista d’occhio, come nel caso dei data warehouse.
  • Costi ridotti. Allo stesso modo, integrare database per correlare i dati è un costo notevole. I data lake hanno decisamente meno costi di gestione di un data warehouse.
  • Subito pronti. Essere in grado di estrarre informazioni utili al business direttamente dai data lake garantisce una reattività maggiore. E si risparmia tutto il tempo di integrazione delle fonti e di preparazione dei modelli di data warehouse.
  • Democratizzazione. I dati grezzi sono tanti e disponibili a tutti, indistintamente dal ruolo che ricoprono in azienda. in questo senso sono democratici, oggettivi e puri, non contaminati dall’elaborazione.

Esempi di data lake e di data warehouse

Nell’ambito sanitario i dati sono generalmente non strutturati (certificati medici, prescrizioni, dati clinici, cartelle sanitarie ecc.), per questo i data warehouse non sono un approccio da consigliare nella Sanità. Nella Finanza, invece, è possibile ottenere ottimi risultati con la gestione dei dati warehouse. In questo caso i dati sono più strutturati, già normalizzati e le fonti sono più omogenee.

In definitiva, non si deve cadere nell’errore di considerare i due approcci alternativi. La scelta dipende dal mercato verticale, dai processi, dagli obiettivi e dalle fonti dati che si usano. L’ideale è considerarli entrambi, oppure approcciare sperimentalmente i due modelli, analizzare i risultati e poi prendere una decisione.

Data lake: cos’è e quando adottarlo rispetto al data warehouse ultima modifica: 2022-07-29T18:16:26+02:00 da Valerio Mariani

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui