Lærervurdering baner seg frem i jungelen av vurderingsformer i skolen. Skritt for skritt ryddes veien for den ultimate formen for måling av hvordan skolen kan lykkes med å skape gode elevresultater. Men modellene for slike vurderinger holder ikke hva de lover.

Norsk skole har gått gjennom mange utviklingsstadier i jakten på å vurdere seg selv og hva elevene oppnår gjennom skolegangen. Vi er imidlertid kommet til et viktig veiskille – når søkelyset nå i økende grad rettes mot læreres dyktighet målt opp imot elevenes eksamens- og testresultater. Presset mot denne type vurderinger øker i takt med den voksende tilgangen til nye testdata og resultatmålinger for elevene, og utviklingen av avanserte modeller for analyse av sammenhenger mellom ressursinnsats og resultater i skolen. Det er dette som har skjedd med stor styrke i USA og i land som har lagt seg på å måle effekter av skolens undervisning.

Modellene som griper om seg knytter seg til måling av antatte «merverdier» eller «tilleggsverdier» som den enkelte lærer eller den enkelte skole tilfører elevenes læring. Disse såkalte «value-added» modeller (VA-modeller) brukes aktivt til å bestemme effekten av læreres undervisning på elevenes prestasjoner. De brukes av forskere for å se på likheter og forskjeller i resultatutviklingen mellom skoler, klasser, lærere og kommuner eller mellom ulike etniske eller sosioøkonomiske grupperinger. Og de brukes av skolemyndigheter og skoleledere til å få et bilde av resultatutviklingen i skolen og lærerprestasjonene, og til å styre utviklingsprosesser. Dette er hva denne artikkelen handler om.

En forskningsoversikt om lærervurdering

Kunnskapssenteret for utdanning la denne våren frem en systematisk oversikt over forskning på lærervurdering: «Former for lærervurdering som kan ha positiv innvirkning på skolens kvalitet» (). Rapporten ble laget på bestilling fra Kunnskapsdepartementet og gir en systematisk gjennomgang av forskning på lærervurdering siden 2009. Rapporten beskriver mange tilnærminger til lærervurdering, hvorav målinger ved bruk av VA-modeller er en av flere muligheter (se Lillejord, 2014). Jeg deltok i dette arbeidet med et spesialoppdrag om å se på forskning rundt VA-modeller. Rapporten viser at de store skillelinjene i lærervurdering går mellom prosessorienterte og resultatorienterte løsninger. Mens de sistnevnte bruker elevprestasjoner som utgangspunkt for vurdering av kvaliteten på undervisningen og lærerens innsats, tar de prosessorienterte løsningene fatt i hvordan lærere og elever opplever hverdagen, hva de kan gjøre for å forbedre sitt arbeid i fellesskap eller ved støtte utenfra, eller ved hjelp av ulike metodiske verktøy, for eksempel kollegaveiledning, skolevandring m.m.

Bruken av de resultatorienterte VA-modellene for å sjekke læring og utvikling hos elevene og hvordan lærernes undervisning virker inn på dette, kan ved første øyekast oppleves besnærende og fristende å ta i bruk. De har en intuitiv forklaringskraft, de berører hva mange av oss tenker om læring og undervisning og at det er «Læreren» som har den største og mest avgjørende innflytelsen på elevenes læring. Men som jeg skal vise nedenfor, er dette en risikosport.

I den nylig fremlagte forskningsoversikten fra Kunnskapssenteret for utdanning er det kun brukt fagfellevurderte artikler i anerkjente tidsskrifter som grunnlag for gjennomgang av feltet. Mesteparten av studiene på feltet er amerikanske. Bildet som fremkommer, er langt fra så enkelt og besnærende som den politiske retorikken skulle tilsi. Studerer vi forskningsrapportene nærmere, er det verd å notere seg en del problemer og konsekvenser for læreres arbeid i skolen (se også Elstad, 2014).

Avanserte statistiske modeller

De statistiske modellene som benyttes, er svært avanserte, og de er krevende å bruke selv for forskere. Modellene er utviklet med forankring i korrelasjons- og regresjonsteknikker og forutsetter pålitelige data og store datamengder. Grunnlaget for beregningene er minst to målinger av elevprestasjoner over tid, og avviket mellom disse målingene blir så korrelert med et antall bakgrunnsopplysninger fra elever, lærere, skolen, distrikter m.m. Analysene bygges opp for å kontrollere hvilke variabler som virker på hva, og for å sile ut effekter som ikke har noen direkte innflytelse på de målte elevprestasjonene. Så langt er det først og fremst elevprestasjoner i matematikk, naturfag og språk som er analysert ved hjelp av slike modeller. Det er innenfor disse fagene vi i størst grad finner et bredt spekter av standardiserte tester. Dessuten er det en stor overvekt av studier fra barnetrinnet. Å studere prestasjonsutviklingen for elevene på høyere trinn innebærer større metodiske utfordringer, ikke minst på grunn av mer sammensatte fagløsninger og lærerkombinasjoner.

For å kunne beregne effekter av undervisning over tid, er det behov for god kontroll på forskningsdesignet og pålitelige prøver. Ved å bruke store datamengder fra mange tusen elever og lærere, kan en si noe om trender på tvers av skoler, klasser og lærere, og med kontroll av bakgrunnsforhold til elevene og sosioøkonomiske skiller. Ved gjennomgang av forskning på området viser Berliner (2014) at det er svært krevende å kontrollere for alle ytre variabler som påvirker testresultatene og effektmålene.

Det er verdt å merke seg at slike studier kun forklarer sammenhenger mellom de variabler som puttes inn i analysene. En konsekvens av dette valget er at hele argumentasjonen om læreres effekt på elevene læring er knyttet til testmålingene og hva de aktuelle prøvene definerer som gyldig kunnskap. Analysene sier mye om korrelasjoner, men ingenting om virkelige årsakssammenhenger.

Stor usikkerhet

VA-modellene som er i bruk, er beheftet med en god del usikkerhet når det gjelder å sortere lærere i kategorier som «effektive» og «mindre effektive», det vil si hvilke lærere som «produserer» gode eller mindre gode elevresultater ut fra målingene som er foretatt. Det er gjort kontrollstudier av hvor godt VA-modellene klarer å treffe riktig på «effektive» og «mindre effektive» lærere. Resultatet er heller nedslående. Flere studier viser at det i opptil 25 prosent av tilfellene kan gjøres feilslutninger om plassering av lærere, det vil si at en i ett av fire tilfeller kan komme i skade for å klassifisere lærere i feil effektgruppe. Problemene knytter seg for eksempel til at gjennomsnittlige økninger i testverdier både på lærerog skolenivå er ustabile over tid, målingene påvirkes av tidspunkt for prøvetaking eller situasjonsbestemte forhold ved den enkelte skole eller klasse. Det viser seg at det bare er moderate korrelasjoner mellom VA-effektmål for enkeltlærere fra år til år. Dette har store konsekvenser for hvordan en og samme lærer kan bli rangert fra år til år.

Observasjoner øker treffsikkerheten

For å imøtegå den økende kritikken mot VA-modellene og deres svakheter, har en prøvd å hente inn observasjonsdata fra læreres undervisning. Dette har bidratt til å skape bedre treffsikkerhet for analysene, men arbeidet og kostnadene ved å innhente denne type data er formidable og skaper problemer ved omfattende bruk. Forskningsoversikten viser at der dette er satt i system, møter forskere og skolemyndigheter et nytt måleproblem som knytter seg til å fremskaffe pålitelige observasjonsdata på tvers av tid, sted og observatører.

VA-modeller som styringsverktøy

Den store utfordringen for VA-målingene er hvordan de blir brukt politisk til å forbedre undervisning og elevprestasjoner. Forskningsoversikten viser at VA-modeller er blitt brukt til å ta lite «effektive» lærere ut av jobben sin, regulere lønninger til lærere, endre skolestrukturer, gjøre forandringer i pedagogikk og måle effekten av skolelederes arbeid. Til dette formålet har skolemyndighetene ofte benyttet seg av forenklede VA-modeller og brukt data fra distrikter, kommuner eller enkeltskoler. Fra et faglig ståsted er det skremmende å se hvordan VA-modeller kan bli brukt ukritisk og lettvint i forhold til et såpass komplekst fenomen som det å vurdere elevers læring og utvikling, og ikke minst lærerdyktighet.

Hva nå – i vårt land?

Sett på bakgrunn av den omseggripende bruken av VA-modeller for vurdering av lærerdyktighet i USA, er spørsmålet om og eventuelt når dette blir en realitet i vårt land. Ved tilvenning til utvidet bruk av nasjonale prøver er veien ikke lang til neste steg. Slikt har skjedd i andre land. Alle beregninger i VA-modellene er knyttet til de mest målbare sidene ved skolens arbeid. Selv observasjoner av undervisning må tallfestes. I de mest kompliserte modellene har forskere prøvd å trekke inn mange typer opplysninger ved elevenes skolegang, også deres sosiale bakgrunn, motivasjon og lignende for å sjekke hva som slår ut på prøveresultatene. For forskeren er dette mulig. Verre er det når lokale skolemyndigheter skal ta i bruk kompliserte VA-modeller. Det krever forskerstøtte. Da kan det være lettere å ta i bruk de enkle modellene. Den enkleste VA-varianten, som allerede er i bruk i vårt land, er å sammenligne eksamenseller testresultatene fra ett år til et annet, eller fra prøve til prøve, for å få et bilde av resultatutviklingen i klassen eller skolen. Det ligger utvilsomt mye god informasjon i slike sammenligninger, og de kan gi et godt diskusjonsgrunnlag for mulige forbedringstiltak. Men det er ganske drøyt og ikke faglig holdbart å trekke slutninger om lærerkvalifikasjoner ut fra slike målinger. Da er man på tynn is. Forskningen på dette området viser at det er mange forhold som slår ut på elevenes prestasjoner. Verken lærere eller elever er tjent med vurderinger som fortrenger denne virkeligheten.

Selv med avansert statistisk kontroll over mange og viktige variabler som virker inn på elevenes læring i skolen, er det vanskelig å isolere effekten av lærerens eller skolens innsats. Årelang forskning rundt effektive skoler, helt siden sekstitallet (jf. Coleman m.fl. 1966), har vist at slike kompliserte målinger kun kan forklare rundt 10–15 prosent av prestasjonsforskjellene mellom elevene og deres utvikling. 80–90 prosent av elevenes fremgang på skolen, målt ut fra standardiserte prøver, kan altså tilskrives eleven selv, forhold som ligger utenfor skolens kontroll eller noe vi ikke kan registrere med kjente mål. Avansert bruk av VA-modeller kommer ikke høyere (jf. Chapman m.fl. 2012; Reynolds m.fl. 2002; Trupp 1999). Det er all grunn til å vise ydmykhet i omgang med målinger i dette området.

VA-modeller – en risikosport

Bruken av VA-modeller til å måle lærerdyktighet er en risikosport. Målingene bør helst være solide og pålitelige hvis de skal brukes til å skape en bedre skole. Erfaringene så langt har vist at denne type effektmålinger er beheftet med stor usikkerhet og at det heller ikke er klart om de fører til noen forbedringer av undervisningen. Dessuten har målingene en politisk dimensjon som berører grunnleggende sider ved det å gi opplæring av barn og unge. Siden VA-modellene banker på skoledøra i Norge, er det behov for å diskutere hva målingene skal dreie seg om og hva som skal være hensikten.

Økende trykk på vurdering

Trykket på vurdering i skolen har økt kraftig gjennom de siste tjue årene. Vi som for 15–20 år siden lot oss friste til å være med på kompetanseutvikling av skoler og lærere til å drive skolebasert vurdering, gjorde det i optimisme og tillit til at det ville gi grunnlag for en profesjonsrettet og sunn vurderingskultur. Selvfølgelig, vi burde visst bedre, og flere av oss tok feil. Det holdt ikke, politikere og myndigheter var ikke fornøyd, for vurderingsarbeidet ga ikke nok informasjon om elevenes læring og utvikling. Likevel la dette arbeidet grunnlag for den videre satsingen på det mange oppfatter som viktig for å utvikle en god kultur for læring – åpenhet innad i skolen om læringsprosesser, kollegaveiledning og demokratiske former for vurdering.

Det skolebaserte vurderingsarbeidet førte ikke frem til økt dokumentasjon om elevenes læring og utvikling, men døde mer eller mindre hen. Inn i det nye årtusen ble arbeidet overtatt av statlige instanser (Utdanningsdirektoratet) og kommuner som bygde opp sine egne vurderingsformer basert på bestillinger til den enkelte skole, som så skulle jobbe videre med resultatene internt. Budskapet som fulgte med en slik skolevurdering, var ganske tydelig. Skolen måtte sette hovedinnsatsen inn på elevvurdering og på det å dokumentere resultater. Omfattende kunnskap om skolevurdering og hvordan skoler utvikler kultur for læring, ble lagt til side i konkurransen med et nytt «vurderingsregime».

Det nye vurderingsregimet i skolen kommer ikke til å stoppe ved de omfattende elevvurderingene. Det er allerede tegn på at tiltakene ikke gir tilstrekkelig politisk tyngde til å komme til rette med de grunnleggende «læringsproblemene» i skolen. Nå er det lærervurdering som står for tur.

En bred nasjonal kommisjon for bygging av tillit

Det finnes ingen enkel vei til å forbedre resultater i skolen. Skolebasert vurdering førte ikke frem til målet, skolevurdering basert på sentrale retningslinjer har heller ikke gjort det, elevvurdering gjennom omfattende prøver og undersøkelser holder heller ikke, så hvorfor legge nye steiner til byrden for lærerne og skolen? Den som vil fremme lærervurdering med utgangspunkt i merverdi-modeller (VAM) er med andre ord på veldig tynn is. Da er det kanskje bedre å satse på en bred nasjonal kommisjon med deltakere fra ulike områder i skolen, lærerutdanningen, myndigheter og det politiske nivå som kan snakke sammen i minst ti år, legge grunnlaget for tillit og forståelse for det sammensatte arbeidet det er å støtte barn og unge i deres læring og utvikling.

Litteraturhenvisninger

Berliner, D. (2014). Exogenous Variables and Value-Added Assessments: A Fatal Flaw, Teachers College Record 116(1). (http://www.tcrecord.org/library ID Number 17293, Date Accessed: 1/22/2014 8:28:13 AM)

Chapman, C., Armstrong, P., Harris, A., Muijs, D., Reynolds, D. & Sammons, P. (2012). School Effectiveness and Improvement Research, Policy and Practice: Challenging the Orthodoxy? London: Routledge.

Coleman, J.S., Campbell, E., Hobson, C., McPartland, J., Mood, A., Weinfeld, R. & York, R. (1966). Equality of educational opportunity. Washington, DC.: Government Printing Office.

Elstad, E. (2014). Lærervurdering – en krevende øvelse. Bedre skole, (3), s. 19–30.

Lillejord, S. (2014). Til ettertanke: Lærervurdering, eller hva vi nå skal kalle det… Bedre skole, (3), s. 36–38.

Lillejord, S., Børte, K., Ruud, E., Hauge, T.E., Hopfenbeck, T.N., Tolo, A., Fischer-Griffiths, P. & Smeby, J.-C. (2014) Former for lærervurdering som kan ha positiv innvirkning på skolens kvalitet: En systematisk kunnskapsoversikt. Oslo: Kunnskapssenter for utdanning, www.kunnskapssenter.no

Reynolds, D., Creemers, B., Stringfileds, S., Teddlie, C. & Schaffer, G. (2002). World class schools. International perspectives on school effectiveness. London: RoutledgeFalmer.

Trupp, M. (1999). Schools making a difference. Let’s be realistic! Buckingham: Open University Press.