Datakvalitet

I forrige kapittel lærte du hvordan vi kan finne, samle og lagre data. Hurra!

Men før vi kan benytte dataene som grunnlag for viktige beslutninger må vi besvare et viktig spørsmål: Vet vi faktisk at dataene vi har samlet inn er til å stole på?

Vi har lært at data ikke bare trylles frem fra ingenting. De har alltid en forankring i en eller annen situasjon eller aktivitet, enten i et digitalt system eller i den virkelige verden. Noe må alltid eksistere forut for at data skal bli til; de oppstår ikke ut av det blå. Ingen røyk uten ild.

Datakvalitet handler kort fortalt om hvorvidt – eller hvor godt – dataene stemmer overens med den situasjonen eller aktiviteten de representerer.

Si at du ønsker å måle andelen nordmenn som bruker internett en gjennomsnittsdag. Hvilken metode velger du? Hvis du drar til en skole og spør 100 tilfeldige elever, vil det nok være overraskende dersom ikke alle sammen allerede hadde vært på nettet før de pusset tennene den morgenen.

Men kan du dermed trekke slutningen at alle nordmenn er på nettet hver dag? Selvsagt ikke. 100 skoleelever er ikke et representativt utvalg av befolkningen. Hva angår å besvare spørsmålet vi stilte, har disse dataene lav kvalitet. De stemmer rett og slett ikke overens med virkeligheten.

Du kan si det samme om andre typer data: Et lydopptak med lav sample rate og bitdybde vil representere den virkelige musikkfremføringen dårligere enn et opptak av høyere kvalitet.

Er dataene komplette og korrekte?

Resultatene i et datadrevet prosjekt vil alltid være prisgitte de dataene som kommer inn. Det virker kanskje selvsagt, men prinsippet er helt avgjørende for alle datadrevne prosesser, og oppsummeres ofte med akronymet GIGO: «garbage in, garbage out».

Eller sagt på godt norsk: Om det du dytter inn har lav kvalitet, så får du som regel resultater med lav kvalitet i retur.

Datakvalitet dreier seg altså om å sikre korrekte, komplette, aktuelle og relevante data som faktisk representerer virkeligheten – og som kan nyttiggjøres i analyser og innsiktsarbeid. Vi må også sikre at dataene ikke blir endret eller manipulert, tilsiktet eller utilsiktet, på måter som påvirker sluttresultatet.

Det er derfor vi trenger å rydde og kvalitetssikre.

Dette ser vi etter i dataene

Her er noe av det som går inn i en oppryddingsjobb:

«Bias»: Vær obs på skjevheter i dataene

Uttrykket data bias handler om når datagrunnlaget på en eller annen måte gir en skjev fremstilling av virkeligheten.

Noen ganger legger vi inn bias med vilje. For eksempel hvis vi bruker et kunstig intelligent system til å hjelpe med ansettelser, kan vi si at kvinnelige søkere skal prioriteres fordi vi ønsker kjønnskvotering. Men ofte er denne typen skjevheter utilsiktet – og det kan få store konsekvenser.

Datadrevne systemer kan ikke reflektere, tolke eller legge til informasjon utover det som allerede finnes i dataene de har å jobbe med, og koden de er basert på. Som vi var inne på ovenfor, handler dette om GIGO: garbage in, garbage out.

Her kan det fort gå galt, for eksempel dersom …

Vi velger data – bevisst eller ubevisst – som understøtter det svaret vi er ute etter, i stedet for å gi et fullstendig og riktig bilde av situasjonen. Hvis du vil bevise hva som er best av PC og Mac, vil du kanskje lete etter data som viser at flere Windows-systemer utsettes for virus enn Mac-systemer. Det gjør imidlertid ikke påstanden sann i sin helhet.
Dataene er basert på en situasjon som i seg selv ikke er nøytral. Si for eksempel at du vil lage en modell for å finne potensielle ansatte, og trener denne basert på de nåværende arbeidstakerne i bedriften din. Dersom flertallet av disse er menn, vil mannlighet i seg selv kunne bli sett som en kvalitet som kjennetegner gode kandidater. Nøyaktig dette har skjedd hos Amazon, som måtte trekke tilbake et automatisk system for ansettelser, og legge seg flate, etter systematisk (robotisk) kjønnsdiskriminering.
Dataene er ufullstendige, overlapper, bruker ulike formater eller har feil og mangler. Eller har noen av de andre manglene vi så på ovenfor. Da vil heller ikke analysen, visualiseringen, rapporten, anbefalingen – eller hva enn som er «output» fra prosessen din – være til å stole på

Kort sagt må vi ha orden i dataene og kunne stole på at de representerer virkeligheten så godt som mulig. I neste emne vil du lære mer om hvordan man sorterer og rydder opp i et datasett.

Innsikt

Datakvalitet og god styring

I kapittel 1 lærte du en del om hvorfor det å jobbe datadrevet i verste fall kan være et minefelt. Dersom vi får beslutsningsstøtte av datadrevne systemer, eller bruker data til eksempelvis automatiserte avgjørelser, kan det gå ordentlig skeis dersom det er feil og mangler med dataene vi baserer det på, eller algoritmene gjenspeiler våre egne fordommer og sneversynthet. Slikt kan få konsekvenser i den virkelige verden og gå på bekostning av både personvern og grunnleggende menneskerettigheter.

Derfor er det ekstra viktig med gjennomsiktighet, tillit og god styring når vi jobber med slike systemer. Kort sagt det som over dammen kalles governance – og som vi i mangel på en dekkende oversettelse kan kalle styringssystemer og styringsstrukturer på norsk.

Det innebærer å jobbe godt og effektivt mot målene sine, men ikke med skylapper på. En må i stedet forene målene med andre hensyn som etikk, juss, sikkerhet og bærekraft.

I forbindelse med datakvalitet handler dette om å kategorisere hvilke data man har å jobbe med og ha en god prosess for å sikre god datakvalitet og datatilgjengelighet, inkludert å se hvilke data som ikke skal brukes uten å tenke seg godt om først. En må kunne skille mellom hva som allerede er blitt evaluert, gjennomgått og kvalitetssikret, og det som ikke har det. I tillegg er det ofte forskjell på dataene som kommer inn etter at man har begynt å jobbe aktivt med en prosess, og gamle data som man kanskje ikke hadde tenkt til å bruke, men som nå blir anvendbare på annet vis.

Vi kan nesten aldri si at vi har 100 prosent perfekte data. Men dersom det finnes feil og mangler, må man evaluere konsekvensene av dette. Hvis dataene har dårlig kvalitet og deretter brukes i en kredittprosess kan enkeltpersoner i verste fall få avslag på et lån. Men om de skal brukes i en rapport og rapporten ender opp med å formidle at netthandelen steg med 16 prosent forrige måned, er det kanskje ikke så farlig at det reelle tallet faktisk var 15 prosent. Rapporten får neppe direkte, skadelige konsekvenser; feilaktig informasjon om en låntaker har derimot veldig negative og direkte implikasjoner for den det angår.

Datakvalitet

Er dataene komplette og korrekte?

Dette ser vi etter i dataene

Korrekthet

Fullstendighet

Aktualitet

Opphav og pålitelighet

Konsistens

Formater og enheter

Synkronisering

«Bias»: Vær obs på skjevheter i dataene

Datakvalitet og god styring