Å vurdere kvalitet på forskning: Se opp for de trøblete tre
- Hva er viktig for å avgjøre om en undersøkelse er god eller dårlig?
Når jeg underviser i forskningsmetode, spør jeg noen ganger nye studenter hva de tror er viktig for å avgjøre om en undersøkelse er god eller dårlig. Svært mange starter da med å svare at det er at utvalget er representativt. Jeg blir ofte litt overrasket over dette, selv om jeg også ser på dette som viktig, er det noe som kommer senere, som ikke er det første jeg ville vektlagt. Etter hvert er det ofte noen som svarer at det er viktig å se på hvor mange som er med i undersøkelsen. Det er nettopp dette denne blogg posten skal handle om: Hvorfor er det så viktig hvor mange «som er med» og hvordan kan en uheldig kombinasjon som involverer dette faktisk ha bidratt til å lede vitenskap på ville veier?
Hvor mange som er med i en undersøkelse, sier noe om hvor sterke sammenhenger du er i stand til å oppdage. Hvis jeg for eksempel skal undersøke effekten av et lesetreningstiltak, kan jeg på bakgrunn av teori og tidligere undersøkelser danne meg en forventning om hvor stor effekten kommer til å bli. Ut fra denne forventningen om effekt kan jeg slå opp i en tabell (eller gjøre en mer komplisert analyse med et dataprogram) og finne ut hvor mange jeg trenger med i undersøkelsen for å oppdage en effekt av den størrelsen. Med «oppdage» menes at effekten blir statistisk signifikant. Hvis den ikke blir det, vil jeg jo bare konkludere med at tiltaket ikke virket og at effektene jeg eventuelt fant bare skyldtes tilfeldigheter.
Noen ganger forventer man svært små forskjeller eller effekter, men man har teori eller tidligere undersøkelser som tilsier at disse likevel er interessante. Det kan for eksempel være for noen typer kjønnsforskjeller, eller sjeldne bivirkninger av en medisin. Dersom man forventer en liten sammenheng må man ha med desto fler i undersøkelsen for å oppdage den, altså for å få et statistisk signifikant resultat. På forskerspråket kalles denne type avveiinger for å vurdere statistisk styrke til en undersøkelse. Det er altså viktig «hvor mange som er med» fordi det bestemmer hvor store sammenhenger du er i stand til å oppdage.
Hvordan kan dette ha ledet vitenskap på ville veier? De siste årene har man gradvis blitt mer klar over at mange forskere innenfor psykologi og utdanning ikke har gjort denne type vurderinger av statistisk styrke før de har konstruert en undersøkelse. Man har tatt med deltagere i undersøkelsene sine mer basert på tilfeldigheter og ut fra praktiske hensyn enn ut fra vurderinger og hypoteser på forhånd. Det har resultert i at svært mange undersøkelser har hatt for få deltagere for å oppdage effekter av en størrelse som er realistisk å forvente for mange fenomener innenfor psykologi og utdanning.
Det er lett å tenke at dette er uproblematisk: Har undersøkelsen for få deltagere for å oppdage sammenhenger, vil man ikke finne noen sammenhenger. Man kan da enten skrive en artikkel om dette eller legge hele undersøkelsen i skrivebordsskuffen. Det siste er nok mest sannsynlig, siden tidsskrifter tidligere i liten grad har publisert undersøkelser uten signifikante funn, og naturlig nok særlig undersøkelser som egentlig har hatt med for få deltagere til egentlig å finne noe i det hele tatt.
Problemet er at det som ofte skjer, er at små undersøkelser også øker sjansen for å finne store effekter helt tilfeldig. Et av mange eksempel på dette er en svensk undersøkelse fra 2002, hvor man undersøkte effekten av arbeidsminnetrening hos barn med ADHD. Undersøkelsen hadde 7 barn med i tiltaksgruppen og 7 barn i kontrollgruppen. Helt overaskende fant man ikke bare store forbedringer på arbeidsminne, men også at barna ble mer intelligente. Faktisk økte deres intelligens med over 2 standardavviksenheter, noe som på en vanlig IQ test vil tilsvare å øke fra en gjennomsnittlig IQ på 100 til IQ på over 130, de av leserne som tester med WISC vet jo at det mildt sagt er en stor forbedring. Selv om undersøkelsen hadde svært få deltagere, ble resultatet såvidt statistisk signifikant, og det var ca 3% sjanse for a det skyldtes tilfeldigheter (for mer statistisk orienterte lesere altså p= 0.03). Dette var et resultat som var for god til å være sant, og senere forøk på å replikere dette har vist at det neppe var «sant» heller.
Dette er et eksempel på at man ved små undersøkelser plutselig kan få tilsynelatende sterke men overraskende sammenhenger som ikke er reelle. Som forsker er det da lett å trekke feilslutningen at: Oj, dette må virkelig være viktig&sant, siden jeg finner en så sterk effekt med så få personer. Det er det dessverre sjelden, se her for en grundig diskusjon av dette. Spesielt når sannsynlighetsverdien for at dette skal skyldes tilfeldigheter også er moderat, altså for eksempel mellom 1% og 5%, er det grunn til å være på vakt (p verdier mellom 0.01-0.05), se her for fin diskusjon av dette.
Kombinert med tidsskriftenes ønske om å publisere signifikante og spennende nye funn har det vært svært uheldig at mange undersøkelser har hatt for få deltagere, har oppdaget overraskende effekter og disse har vært statistisk signifikante. I et nylig forsøk på å replikere undersøkelser publisert i svært anerkjente psykologitidsskrifter fikk man et tilsvarende resultat i bare 39% av dem når man gjorde undersøkelsene på nytt. En annen undersøkelse har også vist tilsvarende problemer innenfor utdanningsvitenskap. Dette er selvsagt svært uheldig, forskning er avhengig av troverdighet og at de funnene som blir publisert er holdbare. I tillegg får man en ressurssløsing, fordi en undersøkelse med et overraskende og spennende funn selv med få deltagere ofte genererer en mengde oppfølgingsundersøkelser fra ulike forskergrupper rundt i verden, som egentlig hadde vært helt unødvendige.
Disse utfordringene har ledet til utspringet av en såkalt «Science reform movement» som fokuserer på transparent forskning for å fremme at effekter som publiseres skal være mulig å gjenskape ved å gjøre den samme undersøkelsen på nytt, altså replikerbarhet. En måte å fremme dette på er pre-registrening av undersøkelser. Da må forskere oppgi på forhånd i detalj hvordan de vil gjøre undersøkelsen, hvilke effekter de forventer hvor mange som skal være med etc. Selv om andelen preregistrerte studier kan øke, er dette neppe mulig å få til for alle typer undersøkelser. Forskning trenger også å ha et eksplorerende og fleksibelt element i seg. Dersom man gjør en eksplorerende undersøkelse, og slumper over en sterk effekt, blir det nok fremover mer vanlig at tidsskrifter krever en preregistrert replikasjon fremfor å publisere dette funnet direkte. En annen måte å øke replikerbarheten på er at datasettet blir lagt ved som open access online material slik at alle kan reanalysere dataene som ligger ute. På den måten er det mulig å sjekke om for eksempel funnene holder når man bruker ulike analysemetoder. Man kan også sjekke om det har vært brukt kreative metoder for å få et significant resultat, såkalt p-hacking.
Psychological Science er tidsskriftet til den amerikanske psykologforeningen, og har som målsetting å publisere «cutting edge» forskning og «latest findings». Dette tidsskriftet er imidlertid ett av de som ble trukket frem og kritisert i kjølvannet av replikasjonskrisen. Kanskje nettopp fordi tidsskriftet hadde fokusert på nye og spenende funn, var det en del av undersøkelsene der som ikke lot seg replikere. På bakgrunn av det har tidsskriftet nå ledet an i «Science reform movement» , ved hjelp av diverse tiltak å publisere replikasjoner, å fremme preregistreing, åpen tilgang av datasett og generelt fokusere på replikerbarhet. Jeg er heldig og er valgt ut til å sitte i en gruppe som skal rådgi og utvikle en strategi for tidsskriftet for å fremme replikerbarhet. Jeg ser frem til dette spennende arbeidet og er sikker på at i fremtiden vil psykologi og utdanningsforskere måtte ha et større fokus på preregistrering, åpen tilgang av data og replikerbarhet for å publisere sine undersøkelser enn det som har vært tilfelle til nå.
I mellomtiden, for konsumenter av forskning, bruk sunn fornuft og vær på vakt mot «de trøblete tre»: Overraskende funn, få personer i undersøkelsen, og resultater som har rundt 1-5% sjanse for å skyldes tilfeldigheter.