Det er grundig dokumentert i en lang rekke undersøkelser at jo mer skjønnsmessig vurderinger er, desto vanskeligere er det å oppnå troverdige vurderinger av prestasjoner og ferdigheter.

Nok en gang er det offentlig debatt i blant annet Aftenposten og Klassekampen om karakterene i skolen – og nok en gang er ikke debatten særlig informert, trass i at emnet har vært diskutert omfattende siden jesuittene innførte tallkarakterskala for vurdere presentasjoner på sine skoler langt tilbake på 1600-tallet.

Debatten om vurderingers troverdighet: vurderer lærere likt?

Ordskiftet har vært og er preget av to ulike temaer:

Det første dreier seg om vurderingenes troverdighet, som igjen kan deles i en rekke undertemaer. For det første: Er vi enig om hva vi skal vurdere? For det andre: Kan vi stole på at det vi ønsker vurdere, vurderes slik vi ønsker. Og for det tredje: Er de som vurderer enig seg imellom når de vurderer?

Det er grundig dokumentert i en lang rekke undersøkelser at jo mer skjønnsmessig vurderinger er, desto vanskeligere er det å oppnå troverdige vurderinger.

Særlig krevende har det vist seg å oppnå troverdige vurderinger av tekstkvalitet. Det har medført en vedvarende kritikk av eksamen i norskfaget – både på ungdomstrinnet og på videregående skole (Berge, 1993, Berge, 1996, Bjørnsson & Skar, 2021). I fag der en fasit kan brukes i vurderingene av elevenes prøvesvar, slik som i matematikk, er selvsagt utfordringene ved vurdering betydelig mindre.

Debatten om vurderingsredskapene: brukes en hensiktsmessig karakterskala?

Den andre vurderingsdebatten dreier seg om valg av vurderingsredskaper, de valgte vurderingsredskapenes egnethet og den hensiktsmessige bruken av slike redskaper. Det er dette temaet som den aktuelle debatten om mulig karakterinflasjon i standpunktkarakterene på den videregående skolen dreier seg om.

Når det gjelder skriveferdigheter, er det dokumentert at sensorer seg imellom ikke er i stand til å skille mellom mer enn tre kvalitetsnivåer på en troverdig måte.

På ungdomstrinnet, i den videregående skolen og i store deler av høyere utdanning er det nemlig bestemt at vurderingsredskapet skal være en skala – som består av enten tall (på ungdomstrinnet og i den videregående skolen) eller bokstaver (i høyere utdanning).

Disse skalaene brukes for å sortere i forskjellige kvalitetsnivåer med henblikk på elevers og studenters muntlige og skriftlige presentasjoner og ferdigheter.

I vurderingsarbeidet i norsk skole i dag finnes det mange ulike skalaer. Skalaene som brukes, er ikke de samme i nasjonale prøver i lesing (som tas på 5. trinn og 8. trinn) som de er når prestasjoner i norsk eller historie fra og med ungdomstrinnet skal vurderes.

Hva er en karakterskala?

På nasjonale leseprøver er denne skalaen normalfordelt på nasjonalt nivå, slik at skolenes resultat kan sammenliknes med hverandre, men ikke fra år til år. Når standpunktkarakter skal settes og eksamensprestasjoner vurderes på ungdomstrinnet og i den videregående skolen, er skalaen målrelatert. Med en slik vurderingsform kan teoretisk alle elever stryke eller få beste karakter.

Målrelatert vurdering gjør det også mulig å vurdere kunnskaps- og ferdighetsutviklingen til elevene over tid – gitt at vurderingene som gjøres, er troverdige – noe omfattende forskning har vist at de ikke uten videre er (Berge, 1993, Berge 1996, Bjørnsson & Skar, 2021).

Det som gjør vurdering med de skalaene som brukes for å sette karakter på standpunkt og til eksamen så krevende å bruke, er først og fremst at den er en såkalt ordinalskala. Det innebærer at relasjonene mellom trinnene i skalaen kan variere.

For eksempel blir ikke avstanden mellom karakterene «3» og «4» av mange lærere opplevd å være så stor som avstanden mellom karakterene «5» og «6». Det fører ofte til at lærere når de vurderer, har en tendens til å tolke skalaen forskjellig. Skalaen brukes derfor ulikt fra sensor til sensor når samme elevsvar vurderes.

Karakterinflasjon som vurderingsproblem

Dersom standpunktkarakterene og eksamenskarakterene i samme fag eller ferdigheter avviker betydelig, bør den mulige årsaken til avviket avdekkes og forklares. Utviklingen i Sverige har vist at karakterinflasjon kan bli et betydelig problem dersom det ikke finnes nasjonale prøver som kan justere lærernes vurderinger.

Særlig akutt blir karakterinflasjonen når skolene konkurrerer seg imellom om oppnå de beste elevprestasjonene – for slik å maksimere de økonomiske utbyttet for skolen, noe som jo er tilfellet i svensk skole.

Utviklingen her i Norge med privatskoler som gir karaktergarantier på kurs der elevene skal forbedre karakterene fra avsluttet videregående skole, nærmer seg den svenske tilstanden.

Hvordan kan karakterinflasjon motvirkes?

Det finnes noen forslag til løsninger på de problemene som oppstår med karakterskalabaserte vurderinger som jeg har nevnt over.

En løsning kan være å utvikle og formulere entydige, tilgjengelige og lett forståelige beskrivelser av de ulike kvalitetsnivåene i skalaen, relevant for fag og ferdighet. En annen løsning, som gjerne kan supplere den første, er å gjøre vurderinger til et kollektivt ansvar for lærere, slik at det alltid er en gruppe lærere som først blir enige om en felles faglig kvalitetsforståelse og deretter vurderer.

Begge disse løsningene ble brukt i de nasjonale utvalgsprøvene i skriving – med tidsfredsstillende resultat. En tredje løsning er å tilpasse karakterskalaens nivåer til antall kvalitetsnivåer som de som skal vurdere er i stand til å skille mellom.

Hvor mange trinn bør en karakterskala ha?

Når det gjelder skriveferdigheter, er det dokumentert at sensorer seg imellom ikke er i stand til å skille mellom mer enn tre kvalitetsnivåer på en troverdig måte. En tredelt karakterskala til bruk i vurderinger vil imidlertid bidra til at antallet elevsvar i det midterste nivå kan bli meget stort ().

Ønsker man for eksempel å bruke karakterer som et verktøy for å motivere elever på det midterste nivået til å bli bedre, kan selvsagt et ekstra nivå innføres, slik at det midterste karakternivået blir delt i et litt bedre og litt svakere nivå.

Slike forestillinger var begrunnelsen da en femdelt skala ble erstattet med en seksdelt skala på ungdomstrinnet fra og med eksamen i 2000. Da den femdelte skalaen ble brukt på eksamen fra 1990-1998, fikk i overkant av hver fjerde elev svært gode eller den gode karakteren «S» eller Mg» på eksamen i norsk skriftlig hovedmål.

Nesten hver fjerde elev fikk den svake eller den svært svake karakteren «Ng» eller «Lg». Halvparten av elevene fikk den midterste karakteren, som da ble kalt «G». Men da en seksdelt skala ble innført fra og med eksamen i 2000, fikk kun hver femte elev de svært gode eller de gode karakterene «6» eller «5», mens kun i overkant av hver tiende elev fikk de svake eller svært svake karakterene «2» eller «1».

Å innføre flere trinn i karakterskalaen bidrar ikke til mer troverdige vurderinger

Slik endret innføringen av et nytt nivå i karakterskalaen det underliggende kvalitetsbegrepet i norskfaget. Det ble vanskeligere å bli vurdert som en svært dyktig elev i faget enn det som hadde vært mulig tidligere.

Vi kan oppsummere denne artikkelen med at det ikke lar seg gjøre å løse utfordringene og problemene med bruken av karakterskalaen på enkle måter. I hvert fall løses ingen grunnleggende vurderingsutfordringer ved å innføre enda flere nivåer i den etablerte karakterskalaen.

Litteraturhenvisninger

Vagle, W. (2005). Hva presenterer elevene målt med gammel og ny karakterskala? Sensuren ved overgangen til nye rammer for elevvurdering. I K.L. Berge, L.S. Evensen, F. Hertzberg & W. Vagle. (2005). Ungdommers skrivekompetanse. Norsksensuren som kvalitetsvurdering (s. 35-99). Universitetsforlaget.

Skolverket. (2021). Skolkonkurrens skapar betygsinflation.