Sprik i vurdering ved eksamen
Når sensorer vurderer eksamensbesvarelser ulikt, så er den beste løsningen neppe å fjerne eksamen. Man kan heller se spriket i vurderingene som et symptom på dårlig samsvar i skolens vurderingspraksis generelt.
Eksamen var denne våren under diskusjon, igjen. Det er veldig bra. I Norge bruker vi uhorvelig mye penger på å sikre borgerne brukbar opplæring. Da ligger det i kortene at vi ønsker en kvalitetssikring av at alle faktisk får det. Sentralgitt eksamen skal sikre at noen av karakterene på et vitnemål er basert på akkurat de samme prøvene, vurdert på samme vilkår.
Eksamen – dyr og urettferdig?
Et førstesideoppslag i Dagsavisen 16. april kunne tyde på at dette langt fra er tilfellet. Overskriften «Eksamen får strykkarakter» varslet om at det som kanskje likevel ikke er vårens vakreste eventyr, begynte å nærme seg. Ordningen med sentralgitt eksamen ble omtalt som dyr, tidkrevende og urettferdig. Sentrale forskere på vurderingsfeltet, Kjell Lars Berge og Gustav Skar, uttalte seg, i tillegg til at Sten Ludvigsen kunne minne om at utvalget han ledet i forkant av fagfornyelsen anbefalte endring av eksamens- og vurderingssystemet.
I den samme saken ble jeg intervjuet om en masteroppgave som jeg har skrevet. Her har jeg blant annet funnet at det sannsynligvis ikke står så bra til med det såkalte vurderingssamsvaret sensorene imellom. I denne undersøkelsen så jeg på vurderingene som ble gitt 4500 eksamenstekster i norsk hovedmål etter videregående opplæring. Dette så jeg opp mot oppgavene elevene svarte på, føringene som sensorene får og elevenes oppgavesvar.
Lavt vurderingssamsvar
Når det gjelder vurderingen, fant jeg både en del sprik og generelt lavt samsvar mellom karakterforslagene til de to medsensorene. I 14 prosent av vurderingene sprikte karakterforslagene med to eller flere karakterer. Det er kanskje dette funnet som har fått mest oppmerksomhet, uten at det betyr at elever som skal opp til eksamen bør bekymre seg for at deres besvarelse får en såkalt sprikvurdering. Da jeg undersøkte hvordan det faktisk gikk med akkurat disse tekstene, fant jeg at tvilen stort sett kom dem til gode. Det er kanskje de andre elevene som kan bekymre seg, både på eksamen og underveis i opplæringa. Vurderingene som blir gitt på eksamen kan på mange måter fortelle noe om all vurdering i skolen.
Det som nemlig var mer bekymringsfullt, var funn av generelt lavt vurderingssamsvar da jeg regnet på alle vurderingsforslagene, også de som ikke sprikte med hensyn til karakter. Det var like lavt som da eksamen i norsk etter videregående opplæring sist ble undersøkt (Berge 1994). Med unntak av én av oppgavetypene, som for øvrig var den de færreste elevene valgte, var samsvaret så lavt at vi også kan knytte usikkerhet til vurderinger der sensorene er enige.
Sensorskolering og styrking av sensuren
Dette er altså funn som er blitt brukt til å kritisere eksamensordningen. For at vi skal stole på at ordningen fungerer, må vi godta å bruke tid og penger på å kvalitetssikre den. Samtidig er det noen momenter som ikke er kommet like tydelig fram.
Blant annet at dette er funn som allerede blir brukt i arbeidet med å forbedre eksamensordningen, i de såkalte sensorskoleringene som blir gjennomført i regi av Utdanningsdirektoratet. For å motvirke usikkerhet ble det denne våren i tillegg innført en ordning med fire oppmenn som sensorene kan kontakte når de skal sette karakterer på besvarelser det er vanskelig å vurdere. Det gir en mulighet til at en besvarelse det er usikkerhet rundt ikke blir vurdert av bare to sensorer, men inntil seks. Ifølge vurderingsforskning fører dette til en betraktelig forbedring av reliabiliteten
Da eksamen ble diskutert i våres, var Elevorganisasjonen tidlig ute og kommenterte funnene av manglende samsvar. Fra deres side ble budskapet at hele ordningen bør skrotes og bli erstattet av mappevurdering (NRK Nyheter 16.4.18). Ett av argumentene som ble brukt var at ordningen med «fem timer i en svett gymsal», som lederen sa, er kunstig. Det er ingen tvil om at en slik eksamensdag for noen kan slå uheldig ut, men dette skal faktisk sensuren ta hensyn til.
Når vi som sensurerer skriftlig eksamen samles til sensorskolering, er det nemlig ett budskap som stadig blir gjentatt: eventuell tvil om karakter skal komme eleven til gode. Det handler blant annet om erkjennelsen av at eksamenssituasjonen er kunstig og at eleven under andre vilkår kanskje kunne fått vist enda mer kompetanse. Dette budskapet er bare én av flere viktige føringer for å forsøke å sikre rettferdig vurdering av elevene. De som ikke deltar på sensorskoleringene, får ikke alltid med seg disse føringene, og de går ikke minst glipp av viktig dialog rundt vurdering av konkrete elevtekster.
Da Utdanningsdirektoratets Sissel Skillinghaug skulle uttale seg om kritikken av eksamen på basis av disse funnene av lavt samsvar, ble nettopp denne skoleringen trukket fram som et argument for at systemet er i ferd med å bli bedre (Dagsnytt 18, 17.4.18). Her kunne det virke som alle sensorer deltar, men det er ikke riktig. Det er derfor viktig at sensorskoleringen blir obligatorisk.
Uansett hvor kyndige vi sensorer blir, er det ingen som noen gang blir dønn utlært i hvordan vurdere skriftlig kompetanse. Personlig opplever jeg at dialogen rundt de konkrete tekstene er noe av det mest interessante og kompetansehevende ved sensoroppdraget.
Skrivevurdering er kompleks
For hvordan vurderer vi en skriftlig eksamenstekst? Teori rundt skrivevurdering understreker at den er kompleks (Jølle, 2015). I en undersøkelse av tekster fra utvalgsprøvene er det også avdekket hvordan vurdering blir vanskelig når sjanger ikke er oppgitt (Skar & Aasen, 2015), noe jeg også fant støtte for i min undersøkelse. I norsk skal vi vurdere en helhet av elevens lese- og skrivekompetanse, i tillegg til annen norskfaglig kompetanse. Helst skal elevene også vise selvstendig refleksjon og kritisk innsikt. Én elev skriver glitrende, men har ikke forstått teksten hun har lest.
En annen reflekterer godt, men setter det ikke i en faglig sammenheng, eller teksten er strukturert på en måte som gjør den vanskelig å lese. Blant oss som skal veie det ene opp mot det andre, er det mange med høy kompetanse og et sterkt engasjement for både fag og elever. Likevel er vi ikke nødvendigvis alltid enige om karakterer.
Noen kan mene at språklig formidling trumfer faglig innhold, andre heller mot det motsatte. Noen tekster er vanskelige å vurdere, for eksempel fordi de viser svært ujevn kompetanse. Enkelte sensorer kan la egne kjepphester stå i veien for helheten, uten at det nødvendigvis skyldes vond vilje. Derfor har vi to sensorer av hver besvarelse og derfor må vi to sette oss ned og diskutere hver enkelt besvarelse når vi har satt våre karakterforslag.
Denne dialogen skal motvirke noe av den usikkerheten som det lave vurderingssamsvaret kan gi. Likevel vet vi ikke nok om dette. Det har vært lite forskning på skrivevurdering i videregående opplæring. Dette selv om vurderingssamsvaret i flere undersøkelser ser ut til å være lavere her enn i grunnskolen (Evensen, 2005).
Dialog for felles normer
I en doktoravhandling som blant annet undersøker alternativer til taus og privatisert vurderingspraksis, er ett av premissene at etablering av felles normer for forventninger til elevenes tekster sikrer mer forutsigbar vurdering. Lennart Jølle (2015) fant i den anledning at endring av vurderingskultur går sakte, noe som delvis blir forklart gjennom vurderernes bruk av vurderingsressursene og delvis profesjonelt utgangspunkt. Uansett bidrar dialog positivt til felles kultur og utvikling skjer gjennom internalisering av fagbegreper og vurderingsressurser.
Denne undersøkelsen studerte tekstvurderere fra nasjonal læringsstøttende prøve i skriving, altså grunnskolelærere. Sensorene i videregående kommer fra skoler med ulik faglig vektlegging og vurderingskultur (Seland et al. 2015). Derfor er det ikke bare viktig at sensorskoleringen blir styrket og gjort obligatorisk, men også at alle norsklærere i videregående skole får økt mulighet til å videreutvikle sin vurderingskultur gjennom dialog.
Det at vurderingssamsvaret ikke er godt nok på skriftlig eksamen, har som nevnt mobilisert noen stemmer til å ta til orde for å skrote eksamensordningen. Men hva betyr lavt vurderingssamsvar i praksis? Det er blant annet et symptom på at normfellesskapet ikke er godt nok. Normfellesskapet er summen av hva alle vi som fastsetter karakterer legger til grunn når vi fastsetter karakterer – det vil si alle karakterer, også underveis- og standpunktkarakterene. At samsvaret kan bli bedre på eksamen, friskmelder altså ikke de andre vurderingene som elever får i løpet av skolegangen eller på vitnemålet sitt. Vi er de samme lærerne som setter alle disse vurderingene. Alle lærere er ikke sensorer, men alle sensorer er lærere. Det betyr at vurderingene som blir gitt på eksamen kan fortelle noe om all vurdering i skolen.
Nå skal lærerne få kjeft igjen, vil kanskje noen tenke. Det er ikke min hensikt. Alle som jobber med folk vet at det er komplekst, selv om vi er både kompetente og hardtarbeidende. Det å skulle vurdere kompetansen til folk er krevende, både etisk og faglig. Mange av oss skulle gjerne vært denne delen av jobben foruten, men så var det altså dette med kvalitetssikring og at tilbakemeldinger er viktige for læring. Vurdering er også en øvelse som endrer seg med nye læreplaner, nye oppgaver og nye folk. Selv om dette er noe vi er sabla gode på, kan vi bli bedre. Og for å bli bedre, må vi snakke sammen. Vi bør følge Ludvigsenutvalgets anbefaling om å se litt ekstra på dette med vurdering. Departementet erkjenner også at det er ulik vurderingskultur mellom ulike skoler og innad i skolene (Kunnskapsdepartementet 2016).
Vi må hele tiden diskutere hva vi legger til grunn når vi setter karakterer. Eksamen er et godt utgangspunkt for diskusjon, også fordi den legger føringer for både undervisning og underveisvurdering. Denne diskusjonen kan ikke opphøre. Jeg vil derfor ta til orde for en fortsatt utvikling og forbedring av eksamensordningen. At Utdanningsdirektoratet i år innfører oppmenn på fellessensuren i videregående, er et skritt i riktig retning. Obligatorisk skolering, systematisk arbeid med normfellesskap i skolene og mer forskning på hva vi driver med, er naturlige skritt herfra.
Litteraturhenvisninger
Berge, K.L. (1994). Norsksensorenes vurderinger av eksamensbesvarelser i norsk hovedmål, allmennfaglig studieretning: en undersøkelse av norsksensorenes bedømmersamsvar og tekstnormer, sensurens pålitelighet og gyldighet, med vekt på karaktersettingen (B. nr. 14). Trondheim: Senter for samfunnsforskning, Universitetet i Trondheim.
Borgström, E., & Ledin, P. (2014). Bedömarvariation: Balansen mellan teknisk och hermeneutisk rationalitet vid bedömning av skrivprov. Språk & Stil 24, 133–165.
Evensen, L.S. (2005). Pålitelighet og betydning. Etterord. I: K. L. Berge, L.S., F. Hertzberg & W. Vagle (Red.), Ungdommers skrivekompetanse: B. 1: Norsksensuren som kvalitetsvurdering. Oslo: Universitetsforlaget.
Jølle, L. (2015). Vurderingsdialogen. En undersøkelse av tekstvurderingspraksis ved nasjonal læringsstøttende prøve i skriving. Trondheim: NTNU.
Krogh, L.C. (2016). Kreativitet og ambivalens. En undersøkelse av variasjon i vurdering og kjennetegn ved sprikvurderte tekster fra eksamen i hovedmål 2015. Masteroppgave i norskdidaktikk. Høgskolen i Sørøst-Norge.
Kunnskapsdepartementet (2016). Meld. St. 28 (2015–2016). Fag – Fordypning – Forståelse. En fornyelse av Kunnskapsløftet. Oslo
Seland, I., Lødding, B., & Prøitz, T.S. (2015). Delrapport 1 fra evaluering av forsøk med halvårsvurdering med én eller to karakterer i norsk. Litteraturstudie. Oslo: NIFU.
Skar, G.B., & Aasen, A.J. (2015). Risikotrekk og skjulte kvalitetar i elevtekstar. Nordic Journal of Literacy Research 2(1), 1-20.