DEEP project: Datavalidatie

17-11-2021
0 reacties

Op deze pagina vind je geslaagde innovaties en pilots, maar ook projecten die nog lopen. Van elke innovatie zie je precies wie er aan werken en in welke fase het project zich bevindt.

Overzicht

In opdracht van waterschap Vallei & Veluwe is gekeken naar hoe tijdreeksdata gevalideerd moet worden. Er wordt vanuit alle hoeken van de organisatie steeds meer data opgevraagd, maar er is nooit gekeken naar of de data daadwerkelijk op orde is.

Projectleider

Lisa Audenaert

Projectteam

Michiel Oliemans, Sander Schenk

Organisatie(s)

Vallei en Veluwe

Thema

Digitale transformatie

Projectfase

Onderzoek/verkenning

Status

Gestopt

In opdracht van waterschap Vallei & Veluwe is gekeken naar hoe tijdreeksdata gevalideerd moet worden. Er wordt vanuit alle hoeken van de organisatie steeds meer data opgevraagd, maar er is nooit gekeken naar of de data daadwerkelijk op orde is.

Voor dit project is er dan ook gekeken in brede zin naar hoe en waar datavalidatie plaats moet vinden in het proces. Er is ook een implementatie opzet afgeleverd, maar daarvoor is ook belangrijk dat de verantwoordelijkheid voor data validatie duidelijk is. Op dit moment zit deze nog op meerdere plekken binnen de organisatie verspreid en daardoor is het moeilijk om iets te implementeren.

Er is onderscheid gemaakt tussen primaire en secundaire validatie. Bij primaire validatie gaat het om fouten die zonder domeinkennis te makkelijk te identificeren zijn zoals: missende waardes, nulwaardes, herhalende waardes enz. Na deze eerste validatiestap volgt de secundaire validatie met behulp van machine learning waarbij er meer domeinkennis nodig voor het valideren van de reeksen.

Het is goed mogelijk om met machine learning data te valideren, maar daarbij is het belangrijk om te weten met welk doel er gevalideerd wordt zodat duidelijk is welke waardes goed en fout zijn. Dit is noodzakelijk om het model zo te trainen dat het de juiste data een flag kan geven.

Belangrijke conclusies:

  • Organisatie moet ook nadenken over implementatie van validatie.
  • Primaire validatie niet makkelijk te valideren. Ook daar zijn veel onderlinge verschillen.
  • Secundaire validatie heeft doel en aansturing nodig.
  • Ontwikkelaars en domein experts spreken niet altijd dezelfde taal, maar dat is ook niet altijd om tot een goed resultaat te komen.

Het python pakket dat de primaire validatiestappen omvat is op het kenniscentrum van het Waterschapshuis gedeeld. Het pakket omvat de primaire validatie en geeft een flag terug die aangeeft welke fouten er in de data zitten. Gebruik het en denk vooral met ons mee als je mogelijke verbeteringen of uitbreidingen ziet!

0  reacties

Cookie-instellingen
Cookie-instellingen sluiten

Cookie-instellingen

Deze website maakt gebruik van cookies. Lees meer over cookies in onze cookieverklaring.


Deze cookies verzamelen nooit persoonsgegevens en zijn noodzakelijk voor het functioneren van de website.

Deze cookies verzamelen gegevens zodat we inzicht krijgen in het gebruik en deze website verder kunnen verbeteren.

Deze cookies zijn van aanbieders van externe content op deze website. Denk aan film, marketing- en/of tracking cookies.