Hvordan kvalitetssikrer og klargjør vi data?

Vi har masse data … men det er det komplette kaos! Her må det ryddes. I denne delen lærer du hvordan.

Dette lærer du

For du har vel ikke glemt det? Det er din tur til å invitere gjengen på middag! Denne gangen slår du på stortromma. Du har funnet en bunnsolid amerikansk oppskrift på ovnsbakt ziti, har kjøpt inn de korrekte ingrediensene (rosmarin, ricotta – selv sterke, italienske pølser fra det lokale slakteriet har du fått tak i). På kjøkkenet finner du frem alle ingrediensene, oppskriften og legger frem utstyret du trenger.

Men hvor mye er egentlig en kvart «pound», åtte «ounces» og 375 «fahrenheit»? Et kjapt søk gir deg svaret: 113 gram, 2,4 desiliter og 190 grader.

På mange måter er datadrevne prosesser avhengig av samme tilnærming som det å kokkelere et bedre måltid. For å nå målet (måltidet) behøver du en god plan (oppskrift), troverdige datakilder med relevante data (ingredienser) i komplette og forståelige formater og verdier (omregne fra «pounds» og «cups» til gram og desiliter).

Dessuten må alt sammen klargjøres og bearbeides i forkant, og du må være trygg på alt som skal gjøres – før det hele kommer sammen i det ønskede sluttresultatet. Nøkkelen ligger i forberedelsene: Ligger ikke rosmarinen klar, og du glemmer den i kampens hete, faller måltidet sammen!

Her skal vi se litt nærmere på hvordan vi sorterer og rydder opp i data for å gjøre dem klare for analyse og bruk. Der forrige kapittel handlet om hvor du skal få tak i ingrediensene, skal vi her se på selve arbeidet med å lage noe fornuftig med dem.

Men aller først skal vi lære om datakvalitet – og om hvordan vi kan forsikre oss om at dataene overhodet er til å stole på.