KRONIKK: Sensorer er som andre mennesker - de gjør feil. Heldigvis finnes det en rekke grep for å redusere feil i karaktersetting på eksamen

I disse dager tikker eksamenskarakterene inn til spente studenter rundt om i landet. Mange studenter legger inn mye tid og arbeid i fagene, noe som ikke er overraskende fordi gode karakterer er en døråpner for jobb eller videre studier. Også for mange voksne innvandrere er sensur viktig. Norskprøven er en inngangsport til det norske samfunnet ettersom resultatet på prøven kan avgjøre jobb- og utdanningsmuligheter.

Dessverre kan sensur oppleves som tilfeldig, for eksempel når karakteren endres flere nivå etter klagesensur. Derfor er det naturlig å lure på om kvaliteten på sensureringen er god nok. I hvilken grad påvirkes endelig karakter av tilfeldigheter og hvilken sensor som vurderer besvarelsen?

Utfordring med menneskelig sensur

Mennesker gjør feil, og vi kan la oss påvirke av faktorer som egentlig ikke bør spille noen rolle. Eksempler kan være kandidatens håndskrift, hvor i bunken besvarelsen ligger eller rett og slett sensorens humør. Det er likevel flere grunner for å benytte seg av menneskelig sensur på eksamen. I sensur av langsvarsoppgaver er teknologien ikke funksjonell nok til å ta over jobbene til sensorene. Spesielt i vurdering av langsvarsoppgaver og prøver uten en klar fasit er det åpent for ulike tolkninger og derfor sprikende sensur. Et eksempel innen språkprøver er at noen sensorer legger vekt på vokabular, mens andre velger å vektlegge struktur og flyt i språket. Det en utfordring at sensorer vurderer tekster forskjellig og heller ikke like strengt. Forskning viser at det er vedvarende forskjeller i hvor strengt tekster vurderes selv blant erfarne sensorer.

Typiske feil sensorer gjør

Det er mulig å kategorisere typiske feil sensorer begår når de vurderer besvarelser. En vanlig feil er sentraltendens i vurderingene som betyr at sensoren ikke tilstrekkelig skiller mellom sterke og svake kandidater. Isteden benyttes midten av karakterskalaen for mye.

Pålitelig vurdering av eksamen forutsetter at sensorene vurderer besvarelsene etter de samme kriteriene beskrevet i sensorveiledningen. Hvis en sensor velger å se bort ifra enkelte kriterier til fordel for overordnet måloppnåelse vil besvarelser sensurert av forskjellige sensorer ikke lenger vurderes på et likt grunnlag. Et annet problem er om sensor i for stor grad lar seg påvirke av en annen sensors vurdering. Dette var tilfellet ved klage på eksamensresultat i høyere utdanning, ettersom ny sensor fikk vite opprinnelig karakter. Nå benyttes blind klagesensur og resultatet er at flere studenter får endret sin karakter ettersom sensoren ikke påvirkes av opprinnelig sensur.

Rettferdig og pålitelig sensur

Norskprøven for voksne innvandre er utviklet av Kompetanse Norge på oppdrag fra Kunnskapsdepartementet. Prøven kan ha stor betydning for kandidatene fordi resultat på prøven inngår som krav for permanent oppholdstillatelse og for å kunne søke høyere utdanning. Flere arbeidsgivere stiller også norskkrav ved ansettelse som kan dokumenteres med resultat på prøven. Norskprøvens delprøve i skriftlig fremstilling skal måle kandidatens evne til å produsere egenskrevne tekster. Hver kandidatbesvarelse vurderes av to sensorer som ikke kjenner til den andre sensoren eller dens vurdering. Hvis de er uenige om endelig karakter sendes besvarelsen til en tredje sensor som tar den endelige vurderingen uten å kjenne til sensureringen til de to foregående sensorene. Denne formen for sensur hindrer at mellommenneskelige aspekter påvirker endelig resultat.

Selv med flere uavhengige vurderinger per besvarelse kan det fortsatt være kandidater som får feil resultat. For å sikre pålitelig vurdering er det avgjørende at sensorkorpset får grundig opplæring som sikrer en felles forståelse av hvordan besvarelser skal sensureres. Her er nøkkelen å utarbeide en god sensorveiledning slik at sensorene vurderer kandidater på mest mulig likt grunnlag og at rommet for skjønn i vurderingen reduseres.

Et annet ledd i kvalitetssikringsarbeidet til Kompetanse Norge er å måle hvor strengt og pålitelig hver sensor i sensorkorpset vurderer besvarelser. Ved hjelp av en statistisk modell kan alle sensorene direkte sammenlignes etter hvor strengt de vurderer besvarelser. Modellen kan blant annet bidra til å avdekke om det er noen sensorer som ikke i tilstrekkelig grad skiller mellom flinke og mindre flinke kandidater eller om det er tilfeller av inkonsekvent sensurering løsrevet fra sensorveiledningen. Hver enkelt sensor får tilbakemelding på hvordan de sensurerer og resultatene fra analysen brukes inn i den kontinuerlige opplæringen av sensorkorpset.

Sakte endring i høyere utdanning

Det har nylig vært gjort grep for mer rettferdig sensur i høyere utdanning. I en ny endring i universitets- og høyskoleloven har det kommet krav om sensorveiledning i samtlige fag. Det har også kommet et krav om at utdanningsinstitusjoner skal foreta en ytterligere vurdering hvis klagesensur fraviker med to eller flere karakterer fra opprinnelig sensur. Likevel er det viktig å diskutere om utdanningsinstitusjonene gjør nok for å sikre rettferdig sensur i høyere utdanning.

Eksamensoppgaver og sensorveiledninger bør utarbeides etter ledende testfaglige prinsipper. Sensorene må også få tilstrekkelig opplæring i hvordan de rettferdig vurderer besvarelser. Et annet tiltak er at hver eksamensbesvarelse vurderes av flere sensorer. I store fag med mange studenter og sensorer kan det undersøkes hvor strengt og pålitelig sensorene vurderer slik at tilfeller av urettferdig sensur avdekkes. Gode kvalitetssikringsmetoder vil koste penger, men de er nødvendige for at studenter skal oppleve å få rettferdig sensur på eksamen.

Litteraturhenvisninger

Tor Midtbø, Arne Rossow og Brikt Sagbakken. «Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling.» Acta Didactica, 2018. DOI: 10.5617/adno.6358