Ontwikkelen van een data lakehouse

Marloes Koopman 01-02-2024
231 keer bekeken 1 reacties

Ál onze data geordend op één plek, gecheckt op betrouwbaarheid én volledig up-to-date. Een stabiele basis, waarmee we dashboards kunnen opzetten en alle teams kunnen ondersteunen. Dat was het doel voor het opzetten van een data lakehouse. En sinds begin 2024 is dit opererend voor ons waterschap.

Projectleider

Frits Verschoor

Projectteam

Kerwin Ebben, Bart Bijlsma (extern), Ruud Janssen (extern), Carlo Wijnen, Roger Nacken, Jaime Hermsdorf en Michiel Oliemans

Organisatie(s)

Brabantse Delta

Bedrijfsfunctie

Bedrijfsondersteuning

Thema

Digitale transformatie

Projectfase

Implementatie/uitrol

Status

Afgerond

Waarom een data lakehouse?

Werken met data wordt steeds belangrijker binnen ons waterschap. Om inzicht te krijgen in hoe goed onze processen werken en welke keuzes we het beste kunnen maken. Of om te kijken of we in lijn lopen met onze doelstellingen. En dus verzamelen we heel wat data. Van onszelf, maar ook van externe bronnen, zoals het KNMI of CBS. Dit zijn data van allerlei soorten en maten – en van allerlei bronnen. Hiervoor is overzicht nodig. En dus ontstond de behoefte om een data lakehouse op te zetten. Een opslagruimte voor data van verschillende bronnen, waarmee we dashboards kunnen opzetten en al onze teams kunnen ondersteunen. Dat klinkt simpel. Maar dat is het niet.

Wat is een data lakehouse?

Een data lakehouse is een hele grote opslagruimte waarin we alle data – gestructureerd én ongestructureerd - op één plek verzamelen. Daarmee is het een combinatie van een data lake en een data warehouse. Binnen deze ruimte worden alle data geordend, geanalyseerd en op een manier weggezet zodat collega's er mee aan de slag kunnen.  Zo behouden we het overzicht én weten we altijd zeker dat we werken met de meest recente data.

Eerste stap: de pilotruimte

Om het data lakehouse op te zetten, moesten we veel technische zaken regelen. Maar: eerst moesten we snappen wat er nodig was voor het opzetten van zo’n data lakehouse. Daarom richtten we een pilotruimte in: ‘de zandbak’. We pakten meerdere cases op en hebben de data hiervan via deze opslagruimte ontsloten. Zo bewezen we in deze testperiode de noodzaak én de urgentie van goed opgeslagen data.

Overstap naar de daadwerkelijke omgeving

In 2023 begonnen we met het opzetten van het daadwerkelijke data lakehouse. Vier collega’s hebben een jaar lang keihard gewerkt om onze organisatie compleet over te zetten naar deze opslagruimte. Sinds begin 2024 zijn we officieel in productie. Onze data zijn geordend, gecheckt op betrouwbaarheid én up-to-date. Doordat we realtime inpluggen, halen we de data rechtstreeks vanuit de bron in ons domein. Zo werkt iedereen altijd met dezelfde versie – en dus dezelfde waarheid.

Afbeeldingen

X (voorheen Twitter)

Floris van der Zwaard

28-10-24 om 17:09

Mooi verhaal en op redelijk korte termijn gerealiseerd, Frits! 👍

Ik zou graag wat meer ins-outs van de keuzes willen horen die jullie al wel/niet gemaakt hebben.
Welke processen en rollen bedient het Lakehouse? Is dit voor analytics(Data science), reguliere stuur rapportages en/of uitwisseling naar buiten/binnen?(Op Data / GkW / etc) 

Cookie-instellingen