DEEP project: Datavalidatie

17-11-2021
0 reacties

In opdracht van waterschap Vallei & Veluwe is gekeken naar hoe tijdreeksdata gevalideerd moet worden. Er wordt vanuit alle hoeken van de organisatie steeds meer data opgevraagd, maar er is nooit gekeken naar of de data daadwerkelijk op orde is.

Projectleider

Lisa Audenaert

Projectteam

Michiel Oliemans, Sander Schenk

Organisatie(s)

Vallei en Veluwe

Thema

Digitale transformatie

Projectfase

Onderzoek/verkenning

Status

Gestopt

In opdracht van waterschap Vallei & Veluwe is gekeken naar hoe tijdreeksdata gevalideerd moet worden. Er wordt vanuit alle hoeken van de organisatie steeds meer data opgevraagd, maar er is nooit gekeken naar of de data daadwerkelijk op orde is.

Voor dit project is er dan ook gekeken in brede zin naar hoe en waar datavalidatie plaats moet vinden in het proces. Er is ook een implementatie opzet afgeleverd, maar daarvoor is ook belangrijk dat de verantwoordelijkheid voor data validatie duidelijk is. Op dit moment zit deze nog op meerdere plekken binnen de organisatie verspreid en daardoor is het moeilijk om iets te implementeren.

Er is onderscheid gemaakt tussen primaire en secundaire validatie. Bij primaire validatie gaat het om fouten die zonder domeinkennis te makkelijk te identificeren zijn zoals: missende waardes, nulwaardes, herhalende waardes enz. Na deze eerste validatiestap volgt de secundaire validatie met behulp van machine learning waarbij er meer domeinkennis nodig voor het valideren van de reeksen.

Het is goed mogelijk om met machine learning data te valideren, maar daarbij is het belangrijk om te weten met welk doel er gevalideerd wordt zodat duidelijk is welke waardes goed en fout zijn. Dit is noodzakelijk om het model zo te trainen dat het de juiste data een flag kan geven.

Belangrijke conclusies:

  • Organisatie moet ook nadenken over implementatie van validatie.
  • Primaire validatie niet makkelijk te valideren. Ook daar zijn veel onderlinge verschillen.
  • Secundaire validatie heeft doel en aansturing nodig.
  • Ontwikkelaars en domein experts spreken niet altijd dezelfde taal, maar dat is ook niet altijd om tot een goed resultaat te komen.

Het python pakket dat de primaire validatiestappen omvat is op het kenniscentrum van het Waterschapshuis gedeeld. Het pakket omvat de primaire validatie en geeft een flag terug die aangeeft welke fouten er in de data zitten. Gebruik het en denk vooral met ons mee als je mogelijke verbeteringen of uitbreidingen ziet!

X (voorheen Twitter)

0  reacties

READAR | Gebouwinformatie en mutatiesignalering uit luchtfoto's

Contact

Het Waterschapshuis
Stationsplein 89
3818 LE Amersfoort

033-4603100

winnovatie@hetwaterschapshuis.nl 

 

 

Cookie-instellingen