I markedsføring av boken «Visible Learning» blir det hevdet at boken avslører undervisningens «hellige gral», og mange tror man her vil finne effektstudier som sier om et pedagogisk tiltak virker. Men John Hattie inkluderer i sin bok også mange studier som utelukkende ser på sammenhenger, og ikke det vi vanligvis mener med effekt. Det åpner opp for feilaktige og unyanserte konklusjoner.

Som utdanningsforskere tenker vi ofte: Hva hvis vi hadde vært lærere og undervist i for eksempel norsk og matematikk? Kanskje hadde vi vært bekymret for en del av elevene våre. Mange lærte å avkode fint i første og andre klasse, men i fjerde klasse virket det som en del falt fra, fikk problemer med å fange opp innholdet i teksten når tekstene blir lengre. Tilsvarende i matematikk, mange greier seg tilsynelatende greit de første årene, men i 4.–s. klasse, når kravene til tallforståelse blir større, samtidig som det også blir flere tekstoppgaver, er det mange som strever. I tillegg virker det som om mange av de som strever med fagene, også får vansker med atferd og oppmerksomhet. Hva gjør vi da?

Med et slikt utgangspunkt vil vi se nærmere John Hatties bok «Visible Learning» (2009). I hvilken grad er den egnet til å gi retning for arbeidet som lærer, og er rådene som kommer frem, pålitelige og verdt å følge?

En liten ABC i forskningsmetode

Flere har hevdet at Hatties bok baserer seg på effektstudier  (Fjørtoft,  2012Nordahl,  2010; Sjøberg, 2012). Hattie (2009) selv bruker ikke dette begrepet, men sier at hans bok består av studier som ser på forhold som har innvirkning på læring, og at han ønsker å belyse hvorfor noen endringer har større innflytelse på læring enn andre (side 3). Hvordan kan man så undersøke om en endring har effekt («virker»)? For å kunne trekke sikre konklusjoner om et pedagogisk tiltak virker, bør man ha en gruppe som får tiltaket og sammenligne dette med en gruppe som ikke får tiltaket. Bare på den måten kan man egentlig vite om det var tiltaket i seg selv som virket, og ikke andre irrelevante forhold. Dette kan virke som et strengt krav, men er egentlig logisk: Tenk deg at du ønsker å prøve ut om et intensivt lesekurs har effekt for en gruppe elever. Du velger ut gruppen som du vil gi tiltaket til og kartlegger leseferdighetene deres med Carlstens lesetest før tiltaket. Så setter du i gang lesekurset som varer i åtte uker. Etter lesekurset undersøker du elevene på nytt med Carlstens lesetest. Du ser at alle elevene gjør det bedre på lesetesten enn de gjorde før kurset. For en lærer som ønsker en pekepinn om et pedagogisk tiltak virker, er dette en fin måte å evaluere arbeidet på. Dette er greit fordi læreren kan basere seg på masse forskning som viser at intensive leskurs faktisk har god effekt. Men når forskere skal undersøke om et tiltak virker, er denne metoden for usikker. Grunnen til det ar at man ikke kan utelukke alternative forklaringer. Det kan være mange årsaker til at barna har fremgang på lesetesten de tok andre gang.

Én kilde til feiltolkning er at barn lærer noe av å ta den samme kartleggingsprøven to ganger. Vi kaller det for test-retest-effekt. Dersom man tar en test på ett tidspunkt, og så tar den samme testen på nytt for eksempel etter noen uker, vil man ofte få en høyere poengsum på neste tidspunkt, fordi man har lært noe av testen første gangen man tok den (Shadish, Cook & Campbell, 2002). En annen viktig grunn til at vi kan trekke feil konklusjon når vi undersøker effekten av et tiltak på bare en gruppe barn, er at de er i kontinuerlig utvikling og læring. Veldig mange barn vil sannsynligvis i løpet av noen måneder også forbedre sine leseferdigheter, selv om de ikke får noe spesielt tiltak. Vi kan derfor bli lurt til å tro at tiltaket vårt har effekt, når det egentlig bare er en vanlig fremgang som barna også ville ha hatt dersom de ikke hadde fått tiltaket (Shadish, Cook & Campbell, 2002). En tredje grunn til at vi kan trekke feil konklusjon når vi bare ser på én gruppe, er at det kan skje ting i løpet av vår tiltaksperiode som kan føre til den samme virkningen som vi ønsker at tiltaket skal ha (for eksempel at foreldrene i tiltaksgruppen følger opp bedre enn de i kontrollgruppen).

For å oppsummere, man kan altså ikke trekke noen sikre konklusjoner ved å se på om et tiltak virker i bare én gruppe. Dette betyr at hvis man ønsker å vite om et pedagogisk tiltak virker, er det best å styre unna denne typen undersøkelser.

Så hvordan kan forskere lage undersøkelser hvor man kan trekke sikrere konklusjoner om et tiltak virker? En åpenbar løsning på dette er å gjøre en randomisert kontrollert studie (se Melby-Lervåg og Lervåg 2013 for en utdyping). Det man da gjør, er å ha en kontrollgruppe i tillegg til tiltaksgruppen. For at alle forskjeller mellom tiltaksgruppen og kontrollgruppen skal skyldes tilfeldigheter, trekker man lodd for å fordele elevene i de to gruppene. Dette er i utgangspunktet den sikreste metoden vi har for å kunne trekke konklusjoner om et tiltak har effekt. Grunnen til det er at vi ved å ha en tiltaksgruppe og en kontrollgruppe, unngår mange av de svakhetene og problemene som vi beskrev når vi undersøker effekten av et tiltak i bare én gruppe. På grunn av dette står randomiserte kontrollerte studier i en særstilling når vi skal undersøke effekten av tiltak, rett og slett fordi slike studier kan gi oss de sikreste svarene.

Hva effektstudier ikke er

For at en studie skal kunne kalles en effektstudie, må den altså innebære at man har forsøkt å undersøke hvorvidt et tiltak virker eller ikke. Som vi har sett ovenfor, finnes det altså gode og dårlige effektstudier. Virkningen av tiltaket kan undersøkes enten ved å kartlegge elevenes læring direkte for eksempel på leseferdigheter, matematikk og lignende, og/eller når det gjelder trivsel, motivasjon eller andre ting. Siden vi i skolen naturlig nok er opptatt av elevens læringsutbytte, er kartlegging av faglige ferdigheter det vanligste. For å kunne lage et effektivt pedagogisk tiltak, er vi avhengig av å ha en god forståelse av et fenomen. Før vi kan gjøre en undersøkelse der vi ser om et tiltak virker, må vi vite hva som påvirker.

Tenk deg for eksempel leseforståelse, som er sentralt for læring i alle teoretiske fag. Det blir vanskelig å hjelpe elever til å få bedre leseforståelse hvis vi ikke vet hva som er viktig for å utvikle god leseforståelse. For å finne ut av dette, lager vi forskere ofte undersøkelser hvor vi ser på hvilke ferdigheter som har sammenheng med leseforståelse eller som kan forutsi hvilke ferdigheter som ligger til grunn for å utvikle en god leseforståelse. Først når vi vet hva som ligger til grunn, kan vi lage et pedagogisk tiltak som har størst mulig sannsynlighet for å virke og som ikke bare kaster bort lærere og elevers tid. Slike studier kaller vi ofte for korrelasjonelle undersøkelser, fordi vi da studerer sammenhenger (korrelasjoner) mellom ulike forhold. Dette er altså ikke effektstudier, det er ingen pedagogiske tiltak som blir prøvd ut. Slike studier er imidlertid svært viktige når det gjelder å forstå fenomener (som læring, trivsel, motivasjon), og ofte vil det ligge mange slike undersøkelser i bunn før man kan gjøre en god effektstudie.

Metaanalyser – et sammendrag av undersøkelser

Hatties bok er en syntese av metaanalyser som ifølge Hattie undersøker hva som virker inn på læring. Hva er så en metaanalyse? På noen områder har vi mange ulike undersøkelser som har undersøkt samme spørsmål. Når vi gjør en metaanalyse, gjør vi et systematisk litteratursøk. Deretter trekker vi ut resultatene fra hver av studiene og sammenfatter disse. Det kan være studier som har undersøkt effekten av pedagogiske tiltak, som for eksempel om fonologisk bevissthetsarbeid fører til bedre leseferdigheter eller om arbeidsminnetrening fører til bedre oppmerksomhet. Vi kan også gjøre metaanalyser av studier som ikke undersøker om et pedagogisk tiltak virker, men som har studert sammenhenger mellom like forhold. Det kan for eksempel være hvordan korttidshukommelse, begrepsforståelse og foreldres utdanning påvirker elevenes leseforståelse.

Det som kan være forvirrende, er at uansett om studiene som ligger til grunn er effektstudier (altså undersøker virkninger av et pedagogisk tiltak) eller om de undersøker et fenomen uten at man tester ut et tiltak, bruker man en effektstørrelse for å si noe om effekten av tiltaket eller hvor store sammenhengene er. En effektstørrelse vil altså bety ulike ting avhengig av spørsmålet som er stilt i undersøkelsen, og det trenger ikke å vise til effekten av et tiltak. I litteraturen om forskningsmetode er det imidlertid stor enighet om at studier som undersøker effekten av et tiltak og studier som undersøker sammenhenger for å forstå et fenomen, ikke bør blandes sammen i samme metaanalyse, fordi spørsmålene de stiller og kan besvare er så ulike (se Borenstein et al 2009). Det er også viktig å merke seg at en metaanalyse aldri blir bedre enn de enkeltstudiene som er inkludert. Dersom metaanalysen består av svake studier uten kontrollgruppe, kan man ikke trekke noen konklusjoner når det gjelder om et tiltak virker eller ikke. Innenfor metaanalyse har man ofte litt humoristisk kalt dette for «garbage in, garbage out».

To innvendinger mot Hatties bok

Hatties bok har vært sterkt kritisert blant annet for å fokusere på medisinsk metode (Imsen, 2011), for å være kommersiell (Sjøberg, 2012), og for å bruke feilaktig beregninger av effektstørrelse (Topphol, 2011). Hovedproblemene slik vi ser det, er imidlertid to ting som i liten grad har kommet frem i debatten til nå: Den første innvendingen mot Hatties konklusjoner er at mange av metaanalysene han har inkludert ikke dreier seg om å undersøke effekten av et tiltak. Man har altså ikke undersøkt hvordan et konkret tiltak utprøvd i skolen virker inn på elevenes ferdigheter, men sammenhengen mellom ulike forhold. La oss bruke et tiltak rettet mot leseferdighet som et eksempel på dette: Når det gjelder om fonologisk bevissthet/bokstavkunnskap forbedrer leseferdigheter, er det inkludert 14 metaanalyser.

Hvis vi ser nærmere på disse, ser vi at flere av disse ikke har undersøkt effekt av tiltak: Wagner (1988) undersøker om det er sammenheng mellom fonologisk bevissthet og senere avkodingsferdigheter, Metsala et al. (1998) undersøker om barn med dysleksi er dårligere til å stave irregulære ord enn barn uten dysleksi, mens Swanson et.al. (2003) har undersøkt hvorvidt det er sammenheng mellom leseferdigheter, benevningshastighet og fonologisk bevissthet. Disse metaanalysene er altså uegnet til å si noe om effekten av fonologisk bevissthetsarbeid/bokstavkunnskap på lesing, rett og slett fordi de undersøker helt andre forskningsspørsmål. Ser vi nærmere på tiltak rettet mot for eksempel leseforståelse og matematikk, ser vi et lignende mønster. I noen av metaanalysene har effekten av tiltak vært undersøkt, mens andre har sett på for eksempel hvordan barn med og uten lærevansker prosesserer informasjon (O’Shaughnessey & Swanson, 1998) eller hvordan andre forhold enn matematikkferdigheter påvirker resultater på matematikktester (Hembree, 1987).

I listen over forhold som har innvirkning på læring i skolen, får dette også et underlig utslag ved at programmer basert på Piagets teori settes høyt opp på listen med nest best effekt. Ifølge redegjørelsen er dette imidlertid basert på en undersøkelse hvor man har sett på sammenhengen mellom ferdigheter på Piagets stadier og lesing og matematikk (Hattie, 2009). Ikke overraskende finner man en høy grad av sammenheng (korrelasjon), siden alle faktorene her er kognitive forhold knyttet til læring. Ut fra dette har man trukket konklusjonen om at programmer basert på Piagets teori har svært god effekt. En slik konklusjon må kunne sies i beste fall å være basert på svært tynt grunnlag.

En effektstørrelse vil bety ulike ting avhengig av spørsmålet som er stilt i undersøkelsen, og det trenger ikke å vise til effekten av et tiltak.

Den andre innvendingen mot Hatties bok går på at svært mange av de metaanalysene han har inkludert som faktisk ser på effekten av et tiltak, inneholder studier uten kontrollgruppe. Som sagt, uten en kontrollgruppe er det vanskelig å trekke konklusjoner om et tiltak virker eller ikke. I praksis fører dette til at effektstørrelsen ser mye større ut enn det den egentlig er. Grunnen til det er at når man har en kontrollgruppe, sammenligner man forskjellen mellom gruppen som får tiltaket og en gruppe som ikke får tiltaket. Effekten av tiltaket er da hvor mye mer fremgang tiltaksgruppen har i løpet av tiltaket enn kontrollgruppen. Som sagt vil kontrollgruppen også ofte ha fremgang, blant annet fordi barn er i kontinuerlig utvikling og læring, man lærer noe av å ta kartleggingsprøven osv.

Hvis man ikke har en kontrollgruppe, vil effektstørrelsen regnes ut bare på grunnlag av prestasjoner på kartleggingen før og etter tiltaket. Effektstørrelsen vil da bli kunstig høy uten at dette er et riktig bilde. Et eksempel på dette fra Hatties bok er at vokabularprogrammer kommer ut med en svært høy effektstørrelse. Dette er imidlertid basert på eldre metaanalyser hvor studier av svak kvalitet er inkludert. Nye metaanalyser med strengere inkludering av studier med kontrollgrupper, viser mye lavere effekt (Elleman et al. 2009).

Så hva sier Hattie selv om dette? I boken sier Hattie selv at det pågår en stor diskusjon i utdanningsvitenskap når det gjelder hva som  teller som evidens i skolen og at enkelte mener at bare randomiserte kontrollerte studier teller som gyldig kunnskap. Hattie påpeker imidlertid at det finnes svært få slike studier innenfor utdanning og skole og at han derfor ikke bare fokuserer på randomiserte kontrollerte studier, men også på studier som det «hevet over rimelig tvil» kan trekkes konklusjoner fra. Derfor, sier Hattie videre, vil han presentere mange korrelasjoner i boken, siden de fleste metaanalysene søker å avdekke hva som har sammenheng med skoleferdigheter. I klartekst innebærer dette at Hattie inkluderer metaanalyser som ser på sammenhenger mellom forhold og altså ikke har undersøkt om et tiltak virker.

Det er lett å si seg enig med Hatties vurdering at det innenfor utdanningsvitenskap er vanskelig utelukkende å vektlegge randomiserte kontrollerte studier, siden det finnes få slike studier også internasjonalt. Vi synes imidlertid det ikke er urimelig å forvente at når man undersøker om et tiltak virker i skolen, faktisk har sett på studier hvor tiltak har vært utprøvd. Det at Hattie har valgt å inkludere studier med så ulike forskningsspørsmål, gjør analysen hans langt mindre interessant enn den kunne vært. I tillegg inkluderer mange av de metaanalysene som faktisk har sett på effekten av tiltak, også studier av dårlig kvalitet og uten kontrollgruppe.

Det er store usikkerhetsmomenter ved Hatties analyse. Det åpner opp for unyanserte konklusjoner om at «læreren er viktigst», men gir i liten grad konkrete råd om hva læreren faktisk bør gjøre.

Et bedre grunnlag for tiltak i skolen

Så, hva hvis vi hadde vært lærere, kunne Hattie ha gitt retning og innhold for vårt arbeid? Vår konklusjon er at det er store usikkerhetsmomenter ved Hatties analyse, og at det åpner opp for unyanserte konklusjoner om at «læreren er viktigst», men i liten grad gir konkrete råd om hva læreren faktisk bør gjøre. Hvordan tiltak virker, er et viktig spørsmål å besvare når man skal avgjøre hvordan tid, krefter og ressurser bør fordeles i skolen. Gode studier som søker å besvare slike spørsmål vil derfor være av avgjørende betydning fremover. Selv om Hatties analyse har bidratt til å sette fokus på dette, har den store svakheter. En viktig lærdom fra dette at man bør være kritisk til nye programmer, tiltak eller lignende som skal innføres i skolen. Et avgjørende spørsmål den enkelte lærer eller skoleeier eller kommune bør spørre seg når noen argumenterer for ulike programmer, er hvorvidt man har et godt nok grunnlag i gode studier med kontrollgruppe som viser at de virker.

Fremfor å se på Hatties oppsummering er det en langt bedre idé å gå til noen av de metaanalysene eller gode randomiserte kontrollerte studiene som er blitt publisert i senere tid. Det er imidlertid gjennomgående innenfor utdanningsfeltet og særlig i en norsk kontekst et stort behov for flere gode studier som undersøker effekten av tiltak. I en norsk kontekst har man derfor primært internasjonale studier å støtte seg til. Innenfor effekten av fonologisk bevissthet på ordavkodingsferdigheter har McArthur et al.(2012) publisert en god kunnskapsoppsummering.

Når det gjelder matematikk, har Gersten et al (2009) publisert en god metaanalyse. Innenfor matematikk finnes det dessverre få gode studier som undersøker effekten av teoretisk velfunderte tiltak, men denne studien oppsummerer de effektstudiene som finnes. For leseforståelse og vokabularintervensjoner er det færre gode meta-studier, den beste er trolig Elleman et al. (2009). Her er det imidlertid også behov for gode studier som ser på effekten av tiltak, spesielt når det gjelder elever med språkrelaterte vansker. Ved å se på denne typen kunnskapsoppsummeringer kan man i stedet for bare en teknisk oppramsing av effektstørrelser, som i Hatties bok, også få svar på avgjørende spørsmål som hvem tiltaket virker best for, hvor omfattende det bør være, hva det bør inneholde og på hvilket alderstrinn det er relevant. I tillegg kan man også forsikre seg om at studiene faktisk har sett på effekten av tiltak. Dessverre er det en vanskelig oppgave for den enkelte lærer eller skoleleder å holde seg oppdatert på metaanalysene og gode randomiserte kontrollerte studier som er publisert, siden de ofte finnes i vanskelig tilgjengelige tidsskrifter i databaser som skolene ikke har tilgang til. Kanskje det nye Kunnskapssenteret for utdanning tar utfordringen og kan bidra til å formidle hovedkonklusjonene fra de beste av disse studiene der de hører hjemme: ute i skolen?

Litteraturhenvisninger

Borenstein, M., Hedges, L. V., Higgins, J.P.T., & Rothstein, H. R. (2009). Introduction to meta-analysis. Chichester, UK: Wiley.

Elleman, A., Lindo, E., Morphy, P. & Compton, D. (2009). The impact of vocabulary instruction on passage-level comprehension of school-age children: A meta-analysis. Journal of Educational E.ffectiveness, 2, 1–44. 

Fjørtoft, H. (2012). Fra Hattie til handling. Læring og ledelse i effektstudienes   tid.   Nettpublisering:   <http://www.slideshare.net/HenningFjrtoft/fra-hattie-til-handling-lring-og-ledelse-i-effektstudienes-tid-nettpublisering> 

Gersten, R., Chard, D., Jayanthi, M., Baker, S., Morphy, P. & Flojo, J. (2009). Mathematics instruction for students with learning disabilities: A meta-analysis of instructional components. Review of Educational Research, 79, 1202–1242.

Hattie, J. (2009). Visible Learning. A synthesis of over 800 metaanalyses relating to achievement. London: Routledge. 

Hembree, R. (1987). Effects of no content variables on mathematics tests performance. Journal for Research in Mathematics Education, 18(3), 197–214. 

Imsen, G. (2011). Hattie-feberen i norsk skolepolitikk, Bedre skole, 4, 18–2s.

Mcarthur, G., Eve, P.M., Jones, K., Banales, E., Kohnen, S., Anandakumar, T., Larsen, L., Marinus, E., Wang, H.C., Castles, A. (2012). Phonics training for English-speaking poor readers (Review). Cochrane collaboration: Cochrane library (åpent tilgjengelig).

Melby-Lervåg, M. & Lervåg, A. (2013). En revurdering av evidensbasert praksis. Bedre skole, 4, 7s–80.

Metsala, J.L., Stanovich, K.E. & Brown, G.D.A. (1998). Regularity effectsand the phonological deficit model of reading disabilities: A meta-analytic review. Journal of Educational Psychology, 90, 279–293

Nordahl, T. (2010). Læringsmiljøets betydning og bruk av veiledningsmateriellet. Nettpublisering: <http://www.slideshare.net/udir/bedre-lringsmilj- lringsmiljets-betydning-thomas-nordahl>

O’shaughnessey, T.E. & Swanson, H.L. (1998). Do immediate memory deficits in students with learning disabilities in reading reflect a developmental lag or deficit? A selective meta-analysis of the literature. Learning Disabilities Quarterly, 21, 123–148.

Shadish, W.R., Cook, T.D., & Campbell, D.T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Boston, MA: Houghton-Mifflin.

Sjøberg, S. (2012). Hatties «Visible learning» i perspektiv: Kritiske kommentarer Utdanningsforbundets skolelederkonferanse, Nettpublisering: Oslo, 23. okt. 2012

Swanson, H.L., Trainin, G., Necoechea, D.M. & Hammill, D.D. (2003). Rapid naming, phonological awareness, and reading: A meta-analysis of the correlation evidence. Review of Educational Research, 73, 407–440. 

Opsal, H. & Topphol, A. K. (2011). Kven er det som skal vurdere om matematikklæraren har matematikklærarkompetanse? – Elevar og foreldre sitt syn på matematikklærarane. Norsk pedagogisk tidsskrift, 95(3), 185–196.

Wagner, R.K. (1988). Causal relations between the development of phonological processing abilities and the acquisition of reading skills: A meta-analysis. Merrill-Palmer Quarterly, 34, 261–279.