PISA-testen legger premissene for norsk skolepolitikk og for folks bilde av kvaliteten i norsk skole. Men det synes å være store uklarheter om hva PISA faktisk måler. Dette kan gi grobunn for grunnleggende misforståelser. I denne artikkelen ønsker jeg å stille spørsmålet: Hva er det PISA måler? Når man skal vurdere dette, er det rimelig å ta utgangspunkt i hva OECD i sine publikasjoner og presentasjoner helt fra 1999 fram til i dag selv hevder at de måler:

Er elevene godt forberedt til å møte framtidas utfordringer? Kan de analysere, resonnere og kommunisere sine ideer effektivt? Har de funnet de interessene som de kan forfølge gjennom hele sitt liv som produktive medlemmer av økonomien og samfunnet? (http://www.pisa. oecd.org, min oversettelse, besøkt 8. okt. 2014)

Men PISA hevder at de måler enda mere:

Pisa […] evaluerer kvaliteten, likheten og effektiviteten i skolesystemene i om lag 70 land, som til sammen utgjør 90 prosent av verdensøkonomien.

Dette er jo ikke småtterier, for i disse utsagnene framstilles det som om PISA gir en prognose for framtiden til så vel de enkelte individer som for landets skolesystem og framtidige økonomiske konkurranseevne. Svar på alle disse spørsmålene mener altså OECD at man får ved å analysere svarene på en to og en halv times skriftlig test av 15-årige elever, der elevene sitter hver for seg, uten kommunikasjon med hverandre eller med Internett. Kanskje en noe dristig påstand?

PISA-oppgavene er, i alle fall i prinsipp, identiske i alle de 70 land som deltar. Besvarelsene er anonyme, de samles inn når tiden er ute. Elevene får aldri diskutert eller gjennomgått oppgavene, verken elevene eller lærerne får vite resultatet og testen teller ikke, verken for elever, lærer, klasse eller skole.

PISA-testens pålitelighet forutsetter at alle elever i alle land yter sitt ypperste, men i det siste er det kommet fram at data fra PISA viser at motivasjonen for å yte sitt beste på en slik test, varierer mellom ulike land og kulturer. Dette er kanskje ikke noen stor overraskelse? Femtenåringer, kanskje spesielt gutter, i Skandinavia er ikke like lojale, lydige og autoritetstro som femtenåringer i land som topper PISA-rangeringene, som Korea, Hong Kong og Singapore. Analyser viser at i Sverige er motivasjonen for å svare på PISA-testene lavest. PISA-data viser også at hvis PISA-testen hadde vært en eksamen som teller, ville mange ha prestert høyere, og aller størst er denne forskjellen i Sverige. Også i Norge er forskjellen stor. (Dagens Nyheter, 4. og 16. juni 2014)

De altomfattende ambisjonene som er sitert ovenfor, blir betydelig redusert når man leser videre i rapportene. Det er også interessant at den norske PISA-siden er langt mer nøktern i sin presentasjon av hva PISA faktisk måler. Det er også interessant at de ikke siterer de uhyre ambisiøse målene som OECD bruker i sine egne PISA-rapporter.

Pisa fokuserer på et langt bredere og mer integrert spektrum av kunnskaper, ferdigheter og holdninger enn det som har vært vanlig i internasjonale undersøkelser knyttet til utdanning. Et hovedmål er å kartlegge elevenes evne til å tolke informasjon og trekke slutninger på basis av allerede ervervede kunnskaper. (http://www.pisa. no/hva_maaler_pisa/, besøkt 8. okt. 2014)

Det er viktig å være klar over at PISA-testen (i motsetning til f.eks. TIMSS) ikke tester skolekunnskaper. Mer om dette senere. PISA forholder seg heller ikke til landenes læreplaner, verken når det gjelder skolens mål, verdigrunnlag eller planer for de enkelte fag. Likevel presenteres og forstås et lands PISA-skåre som et samlet mål for skolens kvalitet. Slik brukes PISA også av media og politikere i nær sagt alle land. PISA blir oppfattet som en internasjonal gullstandard for skolens totale kvalitet og for landets framtid.

Den lange veien fram til PISA-testen

Ingen test er bedre enn de oppgavene som blir gitt. Det er en lang og møysommelig vei som leder fram til den endelige testen. Alle trinnene på veien har utfordringer som innebærer viktige valg og bortvalg. Derfor er det interessant å vite litt om hvordan denne prosessen ser ut, og ikke bare se på sluttproduktet. Her følger noen viktige trinn på den lange veien fra intensjon fram til den testen som elevene besvarer.

Forskningsdesign

Det er viktig å se på selve forskningsdesignet, for dette legger begrensninger for hva slags analyser man kan gjøre på data. PISA er en utvalgsundersøkelse og gir et øyeblikksbilde, man følger ikke elever over tid. Målgruppen, «populasjonen», er alle landets 15-åringer, og i hvert land trekker man et representativt utvalg (ca. 5000) for å representere denne gruppen. Da velger man først ut skoler, og innen disse skolene trekker man enkeltindivider, ikke hele klasser. Det er klare regler for hvordan denne trekningen skal foregå og hvem som kan unntas fra testingen. Dette er en komplisert prosess, med mange mulige feilkilder, noe som ikke blir tatt opp i denne artikkelen.

Med et slikt design kan man si noe om hele målgruppen på testtidspunktet, men man kan i minimal grad si noe om elevenes læringsprosesser eller hva slags undervisning eller andre faktorer som kan forklare gode eller problematiske resultater. Man kan, i beste fall, etablere sammenhenger i form av korrelasjoner mellom ulike variable. Og korrelasjon er, som kjent, noe helt annet enn å etablere et årsak-virkning-forhold.

Basert på PISA-data kan man imidlertid tallfeste ulikhet i resultater mellom skoler og mellom individer innen hver skole. Spørreskjemaet inneholder en rekke spørsmål som gir grunnlag for å lage et mål for elevens sosioøkonomiske status, og man kan måle i hvilken grad sosioøkonomisk status forklarer (i statistisk forstand) ulikhet i elevenes PISA-skåre. Etter fem runder med PISAtesting kan man også se hvordan slike ulikheter har utviklet seg over tid. De svenske PISA-forskerne har i sine rapporter valgt å legge stor vekt på akkurat disse poengene. De har vist at ulikheten mellom svenske skoler har øket, og de har også vist at betydningen av sosial bakgrunn har øket. En slik utvikling i retning av økende ulikhet har man ikke konstatert i Norge. Slike analyser er kanskje det mest interessante man kan bruke PISA-data til.

For øvrig viser PISA at det i alle land er en klar sammenheng mellom PISA-skåre og elevens sosioøkonomiske status. Men dette vet man godt fra før, og det er faktisk den mest robuste sammenhengen man kjenner til i skoleforskning: Skolen reproduserer sosial ulikhet. Men det er interessant å merke seg at betydningen av hjemmebakgrunn stort sett er mindre i de nordiske landene enn i andre land. I de nordiske landene er det også mindre variasjon i elevenes hjemmebakgrunn. Samlet viser PISA altså at de nordiske landene er blant de mest egalitære: Det er liten forskjell mellom skolene, spredningen i hjemmebakgrunn er nokså liten, og betydningen av hjemmebakgrunn for testresultater er mindre enn i de fleste andre land.

PISA-fagene

En grunnleggende avgrensning ved PISA dreier seg selvsagt om testens faglige innhold. OECD valgte på et forberedende stadium ut tre fag (mer presist: «literacies»). Først og fremst lesing på morsmålet, dessuten naturfag og matematikk. Disse valgene følger naturlig av OECDs mandat, nemlig å fremme økonomisk vekst og utvikling i en global høyteknologisk markedsøkonomi. Valget av PISA-fagene betyr at alle andre fag i skolen er utelatt. (PISAfagene er for øvrig de samme fag som testes i de to andre innflytelsesrike studiene, TIMSS og PIRLS.) I disse studiene finner man ikke noe om samfunn, religioner, historie, geografi, fremmedspråk, litteratur, kunst, kultur og etikk. Senere har PISA utvidet sitt innhold til også å omfatte problemløsning («problem solving»), og i 2012 fant PISA plass til enda en dimensjon, nemlig økonomi («financial literacy») (OECD, 2013). Også dette valget springer selvsagt ut fra OECDs økonomisk orienterte mandat. De nordiske landene deltok ikke i denne modulen, men det gjorde 40 andre land.

Rammeverket: PISA-testens «læreplan»

Neste steg i utviklingen av tester er å lage et faglig rammeverk for testingen. Det er dette som senere blir grunnlaget for å lage de oppgavene som skal inngå. Her har OECD engasjert topp fagfolk innen de ulike fagfeltene, internasjonalt anerkjent forskere, blant dem også norske. Disse gruppene nedlegger et betydelig arbeid i å utvikle perspektiver og kategorier som er kjernen i PISA-testingen. Dette rammeverket er imidlertid stadig revidert i løpet av de fem testrundene som PISA har gjennomført fra 2000 til i dag. Dette gjør at sammenligning av resultater over tid blir problematisk, noe PISA-rapportene selvsagt gjør oppmerksom på.

Selv mener jeg at rammeverket er PISAs beste «produkt». Rammeverket (OECD, 2013) har utviklet kategorier for kompetanser som faggruppene anser som sentrale for framtidas samfunn. Dette kan, i alle fall i prinsipp, gi ideer og inspirasjon når man skal vurdere skolens og fagenes innhold.

Fra rammeverk til en «fair» PISA-test

Neste skritt mot PISA-testen er det mest problematiske: å lage oppgaver som tester de kompetanser som beskrives i rammeverket, og som kan brukes i alle slags land og kulturer. De tekniske rapportene (som OECD, 2009) gir detaljer om denne omfattende prosessen. I korthet foregår dette slik:

PISA-forskerne i de enkelte OECD-landene kan komme med forslag til oppgaver som passer rammeverket, og oppgavene skal være basert på «authentic texts» knyttet til «real life situations». Forslagene må være på engelsk eller fransk. Så følger det en lang prosess der disse forslagene vurderes sentralt i OECD. Et stort antall oppgaver plukkes ut for videre bedømmelse gjennom pretesting, revisjoner, oversettelse og pilottesting. Så følger en psykometrisk/statistisk analyse av hvordan oppgavene fungerer i ulike land. Prosessen er grundig og involverer mange underkomiteer og intens møteaktivitet.

Et viktig poeng er å lage en «fair test». Det betyr at man må fjerne oppgaver som ikke fungerer som de skal, rent statistisk. Dette medfører blant annet at oppgaver der noen land har høyere skåre enn statistisk forventet, må kuttes ut fordi det blir urettferdig overfor andre land. I praksis betyr dette at oppgaver som har tilknytning til bestemte lands kultur, historie, naturmiljø, flora, fauna eller dagsaktuelle utfordringer må fjernes. Oppgavene må være dekontekstualisert, ingen må kjenne seg igjen i oppgavene. Så selv om ambisjonen er knyttet til å bruke «authentic texts» i «real life-situations», vil hensynet til rettferdig testing gjøre slike ambisjoner urealiserbare. Autentiske tekster og situasjoner fra det virkelige liv er ikke identiske for 15-åringer i Mexico, USA, Japan og Sverige.

Helt eksplisitt står det at oppgavene ikke må være knyttet til landets læreplan eller være typiske skoleoppgaver (OECD, 2009). Likevel presenterer OECD PISA-resultatene som universelt gyldige mål for kvaliteten til et lands skolesystem, og slik blir de også forstått.

Fra test til skåre: Problematisk analyse

Besvarelsene rettes etter nøye anvisninger fra sentralt hold i PISA. Dette er en nokså omfattende oppgave, for mange av oppgavene omfatter skriftlige svar og argumentasjon, ikke bare avkrysninger av alternativer. Veien videre, fra testresultat på de enkelte oppgaven til den PISA-skår som blir brukt i analysene, er både komplisert og kontroversiell. Selv folk med skolering i statistikk har vanskelig for å se inn i de detaljer som fører fra resultatene på enkeltoppgaver fram til en publisert samlet PISA-skåre. Alle elever har ikke fått de samme oppgavene, men bare et utvalg fra en større pool av oppgaver som til sammen utgjør PISA-testen.

Den beregnede PISA-skåre er dessuten normalisert til å ha en middelverdi på 500 og et standardavvik på 100, basert på fordelingene i OECD-landene. I dataanalysene brukes såkalt Item Response Theory og Rasch-modellering. En dansk professor i statistikk, Svend Kreiner, viser at han, basert på PISA-data, vil kunne få Danmark til å havne på alt fra nummer 2 til 42 ved bruk av denne modelleringen (Kreiner og Christensen, 2013). Denne saken har fått stor politisk oppmerksomhet i Danmark, der selv ledende politikere etter hvert er blitt svært kritiske til å bruke PISAresultater i skoledebatten.

Problematiske PISA-oppgaver

Til tross for disse åpenbare problemene med å lage en god test og å analysere de data som blir produsert, er det viktig å se på de oppgavene som faktisk blir brukt. En slik vurdering av oppgavesettet er ikke enkel, først og fremst fordi oppgavene i hovedsak er hemmelige. (Mange av oppgavene skal brukes ved kommende PISA-tester, og man vil unngå «teach-to-the-test».) En åpen, offentlig debatt om oppgavene blir derved vanskelig. Etter hvert er imidlertid mange oppgaver blitt tilgjengelige, og mange av disse har fått betydelig kritikk, også fra et faglig perspektiv (Henningsen, 2005; Sjøberg, 2007). Interesserte kan finne frigitte oppgaver på hjemmesidene til PISA i de ulike landene.

Oversettelse av oppgavene fra fransk og engelsk er åpenbart et viktig punkt. Her følger man et detaljert og strengt regelverk. Men verken poesi eller fagprosa kan oversettes «korrekt» ut fra oppsatte regler og prosedyrer. Selv mellom de tre skandinaviske land er det store forskjeller i oversettelse. Noen ganger ser vi til og med oppgaver som er substansielt forandret eller «forbedret» (Sjøberg, 2012). Margareta Serder (2014) går i detalj på hvordan de svenske og danske oppgavene er ulikt oversatt og hvordan ulik ordbruk forstås og misforstås av elever. En mer omfattende språklig og komparativ analyse av oppgavene på tvers av ulike kulturer, både asiatiske og vestlige språk, ville ha vært interessant. Men kritisk forskning på PISA synes ikke å være noen prioritert forskningsoppgave.

Selv innen de fagene som faktisk er med i PISA, er det bare enkelte områder eller aspekter som er tatt med. For eksempel er naturfag et eksperimentelt fag, og forsøk, eksperimenter og feltarbeid er viktig. Ikke noe av dette testes i PISA, men er sentralt i mange lands læreplaner. Det viser seg for øvrig at PISA-skåre korrelerer negativt med elevens svar på om de foretar eksperimenter og forsøk og med at de selv utvikler og tester hypoteser (Kjærnsli mfl. 2007), noe som nettopp er en sentral del av en autentisk undervisning i naturfag. Slik finner vi det i norske læreplaner, og slik anbefales det også i sentrale policy-dokumenter (EU, 2007), som nå ligger til grunn for nær sagt alle forsknings- og utviklingsprosjekter som får EU-støtte. Nøkkelbegreper her er «Inquiry-Based Science Education», altså undersøkende arbeidsmåter. Hvis man fester lit til PISA, bør man i alle fall problematisere at man her har to helt motstridende anbefalinger.

Den negative sammenhengen mellom en undersøkende arbeidsmåte og PISA-skåre er kanskje ikke overraskende, i og med at PISA-testen er en ren papir-og-blyant-test. (Testen skal i 2015 bli elektronisk, men vil ikke bli praktisk og eksperimentell i fysisk forstand.) Hvis man skal forberede seg til slike tester, lønner det seg neppe å gjennomføre eksperimenter eller dra på feltarbeid. En slik negativ sammenheng finnes det også mellom PISA-skåre og bruk av IKT, informasjonsteknologi, noe som burde mane til en viss ettertanke. Norge bruker for øvrig ifølge PISA-data mest IKT i skolen av alle OECD-land, mens «PISA-vinner» Finland ligger nær bunnen.

Samleskåre og rangeringer får all oppmerksomhet

Internasjonalt er det rangeringen av land basert på gjennomsnittlig PISA-skåre som får den store oppmerksomheten. Denne rangeringen oppfattes som et slags verdensmesterskap for de ulike lands skole. Det som oppfattes som svake nasjonale PISA-resultater, skaper oppstyr og «PISA-sjokk» i nesten alle land, men PISA sier som nevnt lite om årsak-virkning. Når land konkurrerer om å klatre på PISA-rangeringene, er det neppe dristig å anta at fag som ikke omfattes av testen, vil ha lett for å skyves til side som uviktige.

Panikken i de ulike landene fører til et krav og et behov for å forandre skolen. Politikere vil gjerne vise handlekraft, og de innfører forandringer, tiltak og store reformer for å rette opp situasjonen, helst så raskt som mulig. Dette åpner for kreativitet og fri fantasi, siden PISA ikke forteller noe om hva som kan eller bør gjøres. Det er interessant hvordan ulike regjeringer lanserer diametralt motsatte «forklaringer» på det de oppfatter som for svake resultater. Disiplin? Klassestørrelse? Hjemmelekse? Lærerutdanning? Læringsstrategier? Tilbakemeldinger? Klarere ledelse? Mer IKT? Tidlig innsats? Klarere kunnskapskrav? osv. Fantasien og kreativiteten blomstrer, men er stort sett helt uten forankring i PISA-data.

PISA-skåre presenteres av OECD som en indikator på landets framtidige økonomiske konkurranseevne, og det er utvilsomt dette som gir PISA en enorm internasjonal innflytelse. Men etter flere tiår med internasjonal testing (TIMSS, og etter hvert PISA) kan man nå undersøke om det finnes noen slik sammenheng. Flere studier viser nå at det for rike industriland ikke finnes noen positiv sammenheng mellom denne type testskåre og et lands økonomiske utvikling og konkurranseevne (Tienken, 2008). Da faller grunnlaget for panikken faktisk bort.

Den svenske professoren Ulf P. Lundgren var sentral i OECDs planlegging av PISA. Han hadde håpet at PISA-testen kunne gi grunnlag for viktige diskusjoner om kunnskap i en videre samfunnsmessig sammenheng. Men, konkluderer han: «Sällan har väl en förhopping så grusats.» (Lundgren, 2010). Han konstaterer at PISAresultatene presenteres med metaforer hentet fra avisenes sportssider og at det er stort sett samlet testskåre og rangeringer som får oppmerksomhet. PISA er blitt maktinstrument for politisk styring og kontroll av en kunnskap som vi ikke vet om vi behøver, hevder Lundgren (2010).

PISA brer sine vinger

PISA er i dag et av verdens mest omfattende og ressurskrevende programmer, en slags samfunnsvitenskapens svar på «Big Science» som NASA og CERN. Titusener av mennesker er involvert, og kostnadene er enorme. Prosjektet gir mange arbeidsplasser, og dette skaper både lojalitet og avhengighet. OECD har gjennom PISA tatt kontroll med skole og utdanning på en måte vi aldri har sett maken til. Skolesystemet i utallige land omformes i kjølvannet av PISA. Det norske Kunnskapsløftet og de nasjonale prøvene er direkte konsekvenser av PISA.

PISA utvider og utvikler sine opplegg stadig videre. Vi har allerede fått de første resultatene av PIAAC (Programme for the International Assessment of Adult Competencies), også kalt «PISA for voksne». Og så har vi fått «PISA for schools», der skoledistrikter eller kommuner kan måle krefter med hverandre. Og vi har fått en egne «PISA for Development», der OECD lager standarder og legger premisser for utdanning i utviklingsland. FN-organisasjoner som UNESCO og UNICEF er spilt ut over sidelinjen. PISA/OECD har også innledet et nært samarbeid med Pearson Inc., verdens største kommersielle aktør når det gjelder tester og undervisningsprogrammer. De har 40 000 ansatte i over 80 land og leverer tester og undervisningsprogrammer for millioner av elever og studenter. Samarbeidet med OECD gir en enestående anledning til å utvide markedet.

Er så PISA en god test?

Tilbake til utgangspunktet: Er PISA en god test? Hvis man vurderer dette ut fra hva OECD hevder at PISA måler, slik denne artikkelen startet med, er svaret et klart nei. PISA kan slett ikke gi svar på de nesten altomfattende spørsmålene som de hevder å svare på, og PISA kan si lite eller ingen ting om årsaker, verken til høy eller lav skåre. Men PISA-data kan gi gode indikasjoner for hvordan ulikhet i prestasjoner på PISA-testen mellom skoler og sosioøkonomiske grupper utvikler seg over tid. PISAs faglige rammeverk kan også gi grunnlag for konstruktive debatter om skolens faglige innhold. Den enorme mengden PISA-data kan gi nyttig informasjon om mange sider ved skole og utdanning i alle de land som deltar.

En ting synes sikkert: PISA forsvinner ikke. PISA er kommet for å bli. PISA vil komme med stadig nye runder med data og rangeringer, i alle fall så lenge de utvalgte skolene aksepterer å bruke tiden på å delta. Men vi må gi PISA den plass programmet fortjener. Ikke som sannheten om skolen, men som én av mange kilder til informasjon og refleksjon om skole, kunnskap og samfunn. I en slik situasjon trengs det mer forskning også på hvilke konsekvenser PISA har for skolen og for utdanningspolitikken. Og det er all grunn til å være på vakt mot den alliansen man nå aner mellom OECD og kommersielle aktører på utdanningsområdet, verdens mest ekspansive marked.

Litteraturhenvisninger

EU (2007). Science Education Now: A renewed pedagogy for the future of Europe. European Commission.

Henningsen, I. (2005). PISA – et kritisk blik. MONA. Matematikog naturfagsdidaktik: tidsskrift for undervisere, forskere og formidlere, 2005–1. 24–44.

Kjærnsli, M., m.fl. (2007). Tid for tunge løft. Norske elevers kompetanse i naturfag, lesing og matematikk i PISA 2006. Universitetsforlaget.

Kreiner, S & Christensen, K. B. Bang (2013). Analyses of Model Fit and Robustness. A New Look at the PISA Scaling Model Underlying Ranking of Countries According to Reading Literacy. Psychometrika, June 2013

Lundgren, U.P. (2010). PISA. in Elstad, E. & K. Sivesind (Eds.) PISA: Sannheten om skolen? Universitetsforlaget

OECD (2009). PISA 2006 Technical Report Organisation for Economic Cooperation and Development.

OECD (2013a). PISA 2012 Assessment and Analytical Framework: Mathematics, Reading, Science, Problem Solving and Financial Literacy, OECD Publishing.

Serder, M. og Jacobsson, A. (2014). «Why bother so incredibly much?» Student perspectives on PISA science assignments. Cultural Studies of Science Education.

Sjøberg, S. (2007). Internasjonale undersøkelser: Grunnlaget for norsk utdanningspolitikk? Nettartikkel: http://folk.uio.no/sveinsj/Sjoberg_cappelen-skolepolitikk.pdf (besøkt 10.08.2013)

Sjøberg, S. (2012). Politique, problèmes fondamentaux et résultats surprenants (PISA: politics, fundamental problems and intriguing results) Reserches en Education Numéro 14 – Septembre 2012 (Engelsk versjon på http://folk.uio.no/sveinsj)

Tienken, C. (2008). «Rankings of International Achievement Test Performance and Economic Strength: Correlation or Conjecture?» International Journal of Education Policy and Leadership 3(4).