Kan vi stole på forskning om utdanning?
Det er urovekkende at debatten om replikasjon har vært nærmest fraværende innenfor utdanningsfeltet.
Å bekrefte noe som er funnet i én undersøkelse i nye og lignende undersøkelser er selve fundamentet i kunnskapsutvikling. På den måten kan man se om et forskningsfunn er pålitelig og også om det kan generaliserer til andre enn akkurat de som var med i undersøkelsen. Dessverre er det flere ting som tyder på at det innenfor flere fagområder er en stor andel av resultatene fra publiserte undersøkelser som ikke lar seg reprodusere. Det er dette denne bloggposten skal handle om.
Det å replikere et resultat fra en undersøkelse i nye undersøkelser er viktig av flere grunner: For det første kan det si noe om hvor robust resultatet fra en undersøkelse er. Hvis en undersøkelse har dårlig metodisk kvalitet er det ikke sikkert funnet er gyldig i det hele tatt, og det vil dermed ikke bli replikert. Dersom funnene lar seg bekrefte i nye lignende undersøkelser, sier dette også noe om hvor generaliserbare funnene er. Det vil si at man kan gjøre undersøkelser for eksempel på litt andre utvalg eller kontekster. Da kan vi se om man finner det samme ikke bare i helt identiske undersøkelser, men også når vi har variasjoner i undersøkelsene. Da vil man ikke bare få bekreftet at funnene er riktige, men også hvor langt resultatene kan generaliseres.
Siden det å reprodusere resultater er selve grunnsteinen i vår utvikling av kunnskap, vakte det naturligvis stor oppsikt da John Ioannidis i 2008 publiserte den nå klassiske artikkelen «Why most published research findings are wrong». I denne artikkelen viser han ved hjelp av simuleringer at et forskningsfunn har mindre sannsynlighet for å være sant under 6 betingelser:
- Når det er en liten undersøkelse med få deltagere,
- Når størrelsen på effekten er liten,
- Når data er samlet inn på et bredt spekter av variabler (altså spørsmål, tester eller lignende) og man i liten grad har snevret seg inn basert på teori på forhånd,
- Når det er stor fleksibilitet i hvordan undersøkelsen er designet, begreper er definert og data er analysert,
- Når finansielle eller andre interesser opererer
- Når flere konkurrerende forskergrupper er involvert.
Innenfor psykologi, som jo er en nær «slektning» til utdanningsforskning, ønsket man å undersøke systematisk hvor ille situasjonen faktisk var. Det ble derfor det etablert en internasjonal gruppe som skulle forsøke å reprodusere resultatene til en rekke undersøkelser publisert I høystatus tidsskriftene Psychological Science, Journal of Personality and Social Psychology, and Journal of Experimental Psychology: Learning, Memory, and Cognition).
Resultatet ble publisert i Science, og viste at samlet sett var 47% av de originale undersøkelsene innenfor 95 % av konfiidensintervallet til replikasjonene. Det var imidlertid variasjoner innen faget, ikke uventet var resultatene dårligere for sosial psykologi (25% replikert) enn for kognitiv psykologi (50%). Disse resultatene fikk stor mediaoppmerksomhet, og det har i etterkant også vært en diskusjon om replikasjonsundersøkelsen og holdbarheten av den, hvor forfatterene av den opprinnelige undersøkelsen også responderte tilbake. Dette var også tema på et spennende lunch seminar i regi av CEMO før påske, hvor Henrik Daae Zachrisson orienterte og diskuterte denne undersøkelsen.
Selv om det altså er variasjoner mellom disipliner innen psykologi, er det altså mye som tyder på at Ioannidis ihvertfall delvis hadde rett da han påsto at de fleste publiserte forskningsfunn er gale.
Hvordan har så kommet i en slik situasjon? Flere (Se John et al 2012) har påpekt at en viktig grunn til dette er at tidsskrifter har fortrukket å publisere nye og kanskje overraskende funn samtidig som forskeres suksess har vært tett knyttet til publiseringer. Denne uheldige koblingen kan ha ført til en uheldig forskningspraksis hvor forskere har jaktet på signifikante funn. Med uheldig forskningspraksis menes blant annet ikke å rapportere alle analyser eller eksperimenter man har gjort, å bestemme seg for å slette ekstremverdier i data etter at man har sett hvilken innvirkning det har på resultatene, stoppe og samle inn data når man har fått det resultatet man ønsker og å rapportere et tilfeldig funn som noe som var planlagt fra starten av. Slik uheldig forskningspraksis kan føre til at publiserte resultater ikke er gyldige og dermed ikke lar seg replikere. For mer om uheldig forskningspraksis, se for øvrig innlegg jeg har skrevet om dette tidligere i forskerforum her, i bloggposten "de trøblete tre". Se også artikkel av John et al 2012 .
Hva så med utdanningsforskning, kan vi stole på publiserte resultater?
Innenfor pedagogisk psykologi som er mitt felt og det jeg kjenner best innenfor utdanning, er det ingen tvil om at vi har en del robuste funn som er replikert i undersøkelse etter undersøkelse. Det gjelder for eksempel prediktorer og effekten av tiltak for leseferdigheter. Her har vi en rekke funn som har blitt bekreftet i meta-analyser.
Likevel, det er liten tvil om at en del av forskningen som er publisert innenfor utdanningsfeltet oppfyller kriteriene til Ioannidis for når man bør være bekymret. Det er mange små undersøkelser. I tillegg er det mange undersøkelser samler inn om en mengde forhold uten å være teoristyrt på forhånd. Det kan for eksempel være at man har en mengde spørsmål i spørreskjemaer eller lignende. Det er også få preregistrerte undersøkelser og en svært stor fleksibilitet i hvordan undersøkelsene utformet og dataene er analysert. Det er kanskje ikke så store finansielle interesser innenfor utdanning, men det er nok som i de fleste forskningsfelt, det som Ionnides kaller for «andre interesser» . Det kan for eksempel være at forskere ønsker et bestemt resultat, for eksempel fordi de tror på en bestemt teori, eller fordi et gitt resultat gir en karrieremessig gevinst. Når det gjelder konkurranse mellom forskergrupper, er denne imidlertid kanskje mindre innenfor utdanningsforskning enn andre felt, siden fagområdet er mindre og det er færre aktive forskere på hvert område.
Sammenlignet med psykologi, er det imidlertid urovekkende at debatten om replikasjon vært nærmest fraværende innenfor utdanningsfeltet. Selv i de beste tidsskriftene på feltet internasjonalt (foe eksempel Review of educational research eller Educational researcher) eller i det skandinaviske Scandinavian journal of Educational research, har dette ikke vært tatt opp i kommentarer fra redaktører eller i temanummer. Oppmerksomhet mot dette problemet er viktig siden det er første skritt mot endring.
Manglende oppmerksomhet betyr at vi også har mindre data om hva som er stauts i utdanningsfeltet når det gjelder disse viktige problemene. Vi har imidlertid noen undersøkelser som har belyst temaet. En er gjennomført av Pigott og kolleger, og den viser at det er problemer med betenkelig forskningspraksis. Pigott og kolleger gjennomgikk avhandlinger innenfor utdanningsvitenskap og fant ut at publiserte artikler hadde mål som oikke ga signifikante funn 30% større sjanse for å bli utelatt enn de som ga signifikante funn. Dette er urovekkende fordi det kan reflektere betenkelig forskningspraksis.
En artikkel av Makel og Plucker har nylig gjennomgått publiseringshistorien i de 100 beste tidsskriftene innenfor utdanning (basert på 5 årig siteringsindex). Resultatet viser at frem til nå har bare 0.13% av alle publiseringeer i disse tidsskriftene vært replikasjonsstudier.Dette reflekterer nok at replikasjoner har vært vanskelig å få på trykk og har heller ikke hatt høy status. Man har også funnet noe lignende innenfor psykologi, så det er tvilsomt om dette bare gjelder for utdanningsfeltet. Likevel, dette tyder på lite fokus på replikasjoner.
Hva kan så gjøres for å redusere og forebygge replikasjonsproblemer innenfor utdanningsforskning?
Innenfor utdanningsforskning er det minst tre viktige ting som nå bør gjøres:
- Innenfor utdanningsforskning er i første skritt at det blir rettet fokus mot dette. Det betyr at forskere bør ha dette høyt i bevisstheten både i eget arbeid og i sin veiledning og undervisning av kommende forskere.
- Tidsskriftene innenfor utdanning bør også ta dette alvorlig og ha klare retningslinjer for redaktørene og fagfellene hvordan problemet skal håndteres.
- Det er også viktig at de som arbeider med politikkutforming og som skal omsette forskning til praksis er klar over dette problemet.
Flere tiltak har vært brukt blant annet i medisin og psykologi for å redusere problemet. Innenfor psykologi har tidsskriftet Psychological Science stått i front for å sette i verk tiltak, og jeg sitter i en gruppe der som skal arbeide for å forebygge replikasjonsproblemer. Flere av tiltakene der og innenfor psykologi er relevante også for utdanningsforskning.
Ionnidis foreslår at vi i større grad måtte ta hensyn til flere undersøkelser av et spørsmål, ikke bare enkeltundersøkelser. Det betyr at vi i stor grad må fokusere på styrken til hele kunnskapsbildet rundt et spørsmål gjennom meta-analyser og systematiske oversikter. En utfordring her er imidlertid at utdanning er et ungt forskningsfelt, og at det ofte finnes få gode undersøkelser for mange viktige forskningsspørsmål. Når man oppsummerer forskning bør man derfor være bevisst på dette, hvis ikke kan man risikere at systematiske oversikter får et «søppel inn-søppel ut» problem. Det er også viktig at vi gjør større undersøkelser med flere deltagere hvor forskningsspørsmål og fokus er teoridrevet. Ionnidis foreslo også preregistrering av undersøkelser og hva man samler inn data om, og dette blir i stadig større grad gjort spesielt for randomiserte kontrollerte studier.
Jeg håper at vi om 5 år er kommet mye lenger enn vi har i dag når det gjelder dette problemet, at flere undersøkelser blir preregistrert, at vi har færre grove eksplorerende undersøkelser med svake datainnsamlingsinstrumenter, flere større undersøkelser med mange deltagere og flere rene replikasjoner. Dersom lesere har kommentarer angående dette, bruk gjerne kommentarfeltet.
Det er imidlertid også viktig å finne en balanse i dette: ikke alt kan preregistreres og planlegges på forhånd, og for å kunne generere kunnskap og nye oppdagelser vil nok vitenskap alltid ha eksplorerende og uforutsigbare elementer. Likevel, en bevissthet om dette er avgjørende for å sikre at det vi utvikler faktisk er kunnskap.