
Het data lakehouse nader beschouwd
Regelmatig duiken er nieuwe inzichten op in ons vakgebied. Voor ons is het dan vaak oude wijn in nieuwe zakken. Maar omdat sommige van die ontwikkelingen onderdeel kunnen zijn van een hype en breed worden opgepakt door experts en mensen, die menen er iets mee te moeten zijn wij het aan onszelf verplicht om toch eerst goed te begrijpen waar het over gaat, voordat wij gezamenlijk daar een mening over vormen en naar buiten toe onze gedachten delen. Soms om hypes te ontkrachten maar evenzeer om onze kennis aan te scherpen. Niet voor niets appelleert dit aan twee ‘habits’ van Stephen Covey die ik graag hier memoreer en die binnen Nippur gemeengoed zijn:
‘Try first to understand before you can be understood’
en
‘Sharpen the saw’

Fig 1. Data lakehouse architectuur (bron: website Qlik)
Omdat het data lakehouse zo’n onderwerp is waar veel over wordt gesproken, omdat het wordt gepresenteerd als het ‘ei van Columbus’, vonden wij het belangrijk om het eens van alle kanten te bekijken. Om die reden hadden wij Barry Devlin al als spreker uitgenodigd op onze beleidsdag van mei jongstleden om ons uitgebreid te introduceren over het data lakehouse concept. Vandaar ook, dat onze architecten zich onlangs verzamelden op ons nieuwe kantoor in Nijmegen om zich verder te buigen over een aantal onderzoeksvragen als:
- Wat is een data lakehouse? (definitie)
- Hoe ziet de architectuur van een data lakehouse er uit?
- Voor welke use cases is het een geschikte/ongeschikte architectuur. Waar zitten de pro’s en con’s?
- Welke technologie is geschikt om een data lakehouse te implementeren.
- Waar zitten de verschillen en overeenkomsten met een traditioneel DWH zoals wij het kennen
Het bleek een nuttig overleg te zijn, doordat het ons in staat stelde ons gemeenschappelijk begrip ervan af te stemmen. We constateerden gezamenlijk, dat veel online-informatie over het data lakehouse niet consistent bleek en bovendien wel erg abstract was, waardoor het soms meer vragen opriep dan beantwoordde. En we konden ons niet aan de indruk onttrekken dat het voor een belangrijk deel inderdaad oude wijn in nieuwe zakken is waar de ons bekende datawarehouse architectuur zich sterk reflecteert in het data lakehouse. Alleen worden daar dan nieuwe namen geïntroduceerd voor de ons zo bekende architectuurlagen. Namen als bronze, silver en gold of landing, enriched en curated voor de opeenvolgende lagen en toenemende complexiteit in deze lagen.
Zo ook waren we er het over eens dat wat tegenwoordig als raw laag wordt onderscheiden verwijst naar het datalake, waar gestructureerde en vooral ongestructureerde data kan landen voor verder gebruik en verwerking. Data, nog ruw en ongepolijst. Het data lakehouse is dus feitelijk een uitbreiding van het datalake met datawarehouse karakteristieken. Vandaar ook de samentrekking van de woorden datalake en datawarehouse.
Een typisch voorbeeld van een poging tot het schetsen van de data lakehouse architectuur wordt getoond in figuur 1. Duidelijk is de poging om het datalake en het datawarehouse te herpositioneren. Wat echter niet duidelijk is hoe een en ander dan wordt georkestreerd in wat hier de metadata en governance laag wordt genoemd. Vandaar dat wij denken, dat de ons bekende principes hoe een goed datawarehouse te implementeren hier nog steeds erg waardevol en zeer van toepassing kunnen zijn.
Tot slot constateerden we ook dat we nog maar weinig serieuze technologie zien om de metadata en de governance van een dergelijke architectuur te kunnen beheersen.

