Det er relativt store forskjeller mellom norske skoler i hvordan kunnskap og ferdigheter i samfunnsfag vurderes, og det er mange andre forhold enn elevens ferdigheter som påvirker karaktersettingen. Tydeligere retningslinjer kan være viktig, men kanskje i samme grad at de som underviser i samfunnsfag, snakker sammen om vurdering.

Den norske enhetsskolen er basert på ideen om like muligheter for alle. Internasjonale undersøkelser, som PISA, viser at Norge i stor grad har lyktes med å lage en skole som favner alle på en lik måte. Forskjellen i målene av elevers ferdigheter er liten mellom norske skoler. Forskjeller innad ved skolene er relativt store, noe som indikerer at vi har et system som søker å favne alle på en lik måte. Men vurderer vi elevene likt? Blir bestemte ferdigheter og kunnskaper hos elevene vurdert likt av lærere og skoler?

Mens fokus i den norske enhetsskolen har vært inkludering og like muligheter, så har andre land vært mer opptatt av likhet i betydningen av rettferdighet. Dette kommer blant annet til uttrykk i OECDs gjennomgang av det norske vurderingssystemet, hvor det ble påpekt at «det er indikasjoner på en betydelig variasjon mellom skoler og lærere når det gjelder vurdering, karaktersetting og rapportering. Dette reiser spørsmålet om hvor rettferdig og samsvarende vurdering lærerne gir (which raises concerns about the consistency and fairness of teacher-based assessment)» (Nusche m.fl. 2011, s. 43)1. Forfatterne fra OECD spør om norsk skole i tilstrekkelig grad tilfredsstiller kravene til «fairness, consistency and impartiality in assessment» (Nusche m.fl. 2011, s. 54).

Fotnote: Nusche m.fl. 20111

1 Vår oversettelse. 

OECD etterlyser rettferdighet, fairness, i den norske skolens vurderingspraksis. De etterlyser det som man i vurderingsterminologien vil kalle pålitelig (reliabel) vurdering, at den samme prestasjon og ferdighet blir verdsatt likt, uavhengig av sted og hvem som gjennomfører vurderingen. Nå har ikke OECD i denne sammenhengen undersøkt lov- og rammeverk for den norske skolen, men hadde de gjort det, ville de hatt minst like stor grunn til å etterlyse det vi kan kalle en rettferdig vurdering av elevene. Rettferdighet er ikke et begrep man finner, verken i opplæringslov eller forskrift til loven. 

I Utdanningsdirektoratets rundskriv om vurderingsforskriften fra 2010 henvises det derimot til «en rettferdig vurderingspraksis» som «forutsetter at elever, lærlinger og lærekandidater blir vurdert på det samme grunnlaget» (Utdanningsdirektoratet 2010, s. 5). Det gis karakterer i norsk skole, og disse karakterene er avgjørende for elevenes videre valg (og ikke-valg) senere i livet. Det er derfor en rimelig forventning at vi kan stole på at disse er både rettferdige og pålitelige. At dette ikke vektlegges mer i lover og forskrifter, kan skyldes at vi tar det for gitt at dette er tilfellet. Men er det det?

Sentralt gitte eksamener er et virkemiddel for å sikre lik vurdering. Men de gis bare i noen fag. Ordningen i seg selv synes heller ikke god nok for å sikre likhet i vurderingspraksis. OECD finner flere svakheter ved den. Statistisk sentralbyrå (SSB) har også vist en betydelig variasjon i karaktersetting som kan knyttes til andre forhold enn det rent faglige (Gravaas m.fl. 2008; Lagerstrøm m.fl. 2014), og det er forskning som peker på betydelige forskjeller i hvordan standpunktkarakter settes mellom fag og i skoleløpet (Prøitz og Borgen 2010; Galloway m.fl. 2011). 

Er det slik at enhetsskolen rommer mangfold, men produserer forskjeller? Blir elevene utsatt for systematiske forskjeller mellom skoler når karakterer de skal bære med seg resten av livet blir satt? Gir enhetsskolen en «fair» vurdering? 

Karakterstøttende prøver

Vi har i dag obligatoriske nasjonale prøver i lesing, regning og engelsk. I tillegg er det utviklet kartleggingsprøver. Disse prøvene er såkalte kvalitetsindikatorer og inngår i Kvalitetsvurderingssystemet Søgnen-utvalget lanserte ideen til (NOU 2003:16; NOU: 2002:10). 

Tanken var å utvikle et kvalitetsindikatorsystem som kunne favne alle deler av norsk skole. Arbeidet med å etablere nasjonale ferdighetsprøver som kunne dekke flere fag, ble under statsråd Kristin Halvorsen transformert til utvikling av såkalte karakterstøttende prøver i fag. Disse prøvene skulle, til forskjell fra de nasjonale prøvene, ikke rapporteres til sentrale myndigheter. Også de karakterstøttende prøvene er tenkt som et hjelpemiddel for vurdering og kvalitetsutvikling, og stilles i utgangspunktet til lærernes rådighet via Utdanningsdirektoratets prøvebank for vurdering av elevene og utvikling av egen undervisning. I dag har vi karakterstøttende prøver i samfunnsfag og naturfag. 

Å gi prøvene navnet «karakterstøttende» var blant annet med utgangspunkt i en erkjennelse at karaktersettingen i norsk skole kan ha innslag av vilkårlighet. Med prøvene er det grunnlag for den enkelte lærer å «kalibrere» sin vurdering opp mot en nasjonalt representativ fordeling. Å fungere «kalibrerende» har ikke vært spesielt vektlagt i den norske konteksten. I andre land, som Sverige, hvor man i enkelte fag ikke har sentrale eksamener, har dette vært det viktigste med prøvene. Der skal prøvene «bidra till likvärdig bedömning och betygssätting i skolan».2  Men selv om det å sikre rettferdig vurdering ikke er løftet fram som formål med de norske prøvene, så kan de opplagt tjene denne funksjonen. Slik de er utformet, gir de et bilde på fordeling av ferdigheter og kunnskaper i faget som er representativt for hele landet.

Fotnote: «bidra till likvärdig bedömning och betygssätting i skolan».2

2 http://www.skolverket.se/bedomning/nationella-prov, lastet ned 4. august 2015

Norges teknisk-naturvitenskapelige universitet (NTNU) har på oppdrag fra Utdanningsdirektoratet fått ansvaret for å utvikle karakterstøttende prøver i samfunnsfag. Vi har pr. dags dato utviklet to prøvesett som lærere kan ta i bruk som støtte i vurderingsarbeidet i faget, og det tredje vil være klart høsten 2015.

Alle disse prøvene har vært testet ut på nasjonalt representative utvalg med rundt 3000 elever. Resultatet fra disse utvalgsprøvene gir oss flere svar på hvor godt faglig rustet elevene er. De tydeliggjør også flere forskjeller i norsk skole og de kan si oss noe om hvor pålitelig vurderingen som gis rundt i landet av elevenes ferdigheter og kunnskap i samfunnsfag er.

Datagrunnlag

Det å lage gode prøver er en krevende oppgave. Ikke bare må oppgavene være av en slik art at de beveger seg innenfor det landskapet av ferdigheter det er forventet at elever i samfunnsfag skal ha. Det er også strenge og omfattende krav når det gjelder det måletekniske: Måler oppgavene det de skal måle, og måler de det på en god måte?

Prøvene må være pålitelige (reliable). Prøvene må også måle det som er fagets innhold. Resultatene fra dem må være gyldige (valide). Og prøvene må ikke forskjellsbehandle elever med hensyn til kjønn, sosiokulturell eller språklig bakgrunn. De må være rettferdige.

Det vil føre for langt her å beskrive hvordan vi sikrer dette. Vi nøyer oss med å løfte fram de viktigste momentene. Utformingen av prøvene skjer i henhold til internasjonalt anerkjente retningslinjer (Sanders og Beywl 2006; American Educational Research 2014) og tar utgangspunkt i kompetansemål etter 10. trinn. En nasjonal referansegruppe er oppnevnt for å vurdere oppgaveforslag og kommentere oppgavesett.

Prosedyren for utviklingen av prøvene består av flere ledd.

For det første gjøres en analyse av læreplanmålene. Deretter utarbeides det forslag til oppgaver, som blant annet søker å ivareta bredde med hensyn til læreplanmål, kunnskapsformer og teoretiske antakelser om elevens ferdighetsnivå. Disse oppgavene blir så prepilotert ved bistand fra elever, lærere og lærerstudenter. På bakgrunn av dette blir så et relativt stort omfang oppgaver (over 100) pilotert på i overkant av 500 elever på et tilfeldig utvalg av inntil 45 skoler.

Resultatene fra piloten blir analysert med anerkjente metoder for å teste krav til pålitelighet, gyldighet og ikke forskjellsbehandling (Rao og Sinharay 2007; Furr og Bacharach 2008; King m.fl. 2011). Oppgavene som skal med i den såkalte utvalgsprøven, må tilfredsstille krav til dimensjonalitet (det er ferdigheter i samfunnsfag de måler, og ikke andre ferdigheter), diskriminering (oppgavene skal ikke forskjellsbehandle med hensyn til kjønn eller kulturbakgrunn) og oppgavene skal samlet inneholde både lette og vanskelige oppgaver. Med utgangspunkt i en såkalt «Rasch-modell», som tilsier en sammenheng mellom elevens ferdighetsnivå og score på oppgaver av forskjellig vanskelighetsgrad, vurderes oppgavene med tanke på hvor godt de fungerer for å skille mellom antatt faglig sterke og antatt faglig svake elever.

Etter en slik gjennomgang lages en utvalgsprøve med rundt 50 oppgaver som gjennomføres for et tilfeldig utvalg av inntil 250 skoler med til sammen i overkant av 3000 elever. Denne utvalgsprøven gir et representativt bilde av ferdighetene i samfunnsfag for landet som helhet, og det er den resultatene fra den enkelte skole eller elev måles opp mot. Utvalgsprøven representerer slik en kalibreringsstandard for elevers ferdigheter.

Gjennom prøveutviklingen har vi et omfattende datamateriale. Ikke bare har vi resultater fra tre prøver med til sammen over 10.000 elever. Vi har også måletekniske data fra flere hundre oppgaver som blant annet kan si oss noe om hvilke oppgavetyper som skiller elever med ulikt faglig nivå.

Skoleforskjeller

I utformingen av én av prøvene ble det gjennomført en utvalgsprøve på 10. trinn i juni 2014 for et tilfeldig utvalg av skoler med ungdomstrinn. Utvalgsprøven omfattet 3122 elever fordelt på 111 skoler. Utvalget er vektet for også å få med små skoler. Vi har samlet gjennomsnittlig standpunktkarakter for disse skolene i samfunnsfag og undersøkt korrelasjonen med score på de karakterstøttende prøvene. Denne korrelasjonen er signifikant og med korrelasjonskoeffisient (Pearson) på 0,39.

Dersom vi tenker oss en modell hvor vi undersøker hvor mye variansen i de målte ferdigheter mellom skoler kan forklare variansen av standpunktkarakterer, ser vi imidlertid at samsvaret mellom standpunkt og resultater på prøven på skolenivå ikke er spesielt god. En korrelasjon på 0,39 (R) innebærer at de målte ferdighetene bare kan, rent teknisk, forklare ca. 15 prosent (R2) av variasjonen i standpunktkarakterene mellom skolene.

I et ikke fullt så teknisk språk kan vi si at forskjellen i skolenes karaktersetting bare i liten grad kan tilskrives forskjeller i elevenes ferdigheter, slik de er målt gjennom de karakterstøttende prøvene. Selv om vi tar høyde for at prøvene selvsagt ikke gir et objektivt mål på ferdigheter, så er det likevel tydelig at det er mange forhold utover elevenes ferdigheter som forklarer den praksis for å gi karakterer som finnes ved den enkelte skole.

Det er også påfallende forskjeller mellom skolene når det gjelder hva elevene kan. På noen oppgaver har alle elevene rett svar, mens på andre skoler klarer ingen av elevene oppgavene. Dette er for eksempel tilfellet med en oppgave fra prøve nummer 3 om Cuba-krisen. Elevene ble stilt spørsmål og fikk alternativer for «Hvem ledet Sovjetunionen under Cuba-krisen?» På én skole er det ingen av elevene som har svart riktig, mens på en annen skole har alle elevene svar riktig.

Til en viss grad skyldes denne forskjellen elevenes generelle ferdighetsnivå i faget, men ikke bare. Forskjellen dokumenterer at det er forskjell på hva det jobbes med i samfunnsfag rundt i landet. Et annet eksempel er en oppgave om verdens største hav fra prøve 2. På én skole er det kun 10 prosent av elevene som vet at svaret på spørsmålet er Stillehavet, mens det på en annen er nær 90 prosent som vet det.

Denne forskjellen kan være knyttet til forskjeller i undervisningstema mellom skolene. Den kan også være knyttet til forskjeller i undervisningsmetodikk og utstyr. Dersom elevene ikke bare hører at Stillehavet er verdens største hav, men selv kan ta det i øyesyn ved for eksempel å undersøke en globus, er sannsynligheten for at de tilegner seg kunnskapen mye større. En slik visualisering ligger også til grunn for grensesnittet som er valgt for den norske samfunnsfagprøven ved at eleven ikke bare må forholde seg til tekst, men også har oppgaver som inneholder bilder og figurer. Ikke alle elever får vist sin kunnskap gjennom muntlig og skriftlig framstilling i klassen, og prøven kan utfylle lærerens bilde av elevenes kompetanse.

Studier har vist at bruken av for eksempel kart i norske lærebøker er sterkt varierende (Sætre 2010, s. 140ff ). Et samlet inntrykk er at det er liten bredde i bruk av ulike karttyper – og liten systematisk trening i å lese og tolke kart. Etter årtusenskiftet finnes ikke lenger en sentral godkjenningsordning for lærebøker. Dermed kan også elevenes kunnskaper variere sterkere, siden mye av undervisningen er lærebokstyrt (Koritzinsky 2012, s. 231f ).

Jonas Christophersen har sett nærmere på utviklingen i elevers samfunnskunnskap etter Kunnskapsløftet. Han finner at elevenes kunnskaper og ferdigheter i samfunnsfag samvarierer klart med politisk interesse, engasjement, men også egne utdanningsplaner og foreldres utdanning. Anvendelse av ulike elevaktive arbeidsmåter gir derimot negativ effekt. Elevaktivitet påvirker likevel elevenes engasjement og kan dermed ha en indirekte virkning på kunnskap og ferdigheter (Christophersen 2015).

Kristine Sandsmark har i en masteroppgave undersøkt vurderingspraksis blant samfunnsfaglærere i videregående skole, og finner at den i liten grad er koblet til et tolkningsfellesskap. Forklaringen er kompleks og omfatter blant annet mangelfull og generell fagdidaktisk vurderingslitteratur, samt at lærerne ikke gjør bruk av eksisterende teori. Samfunnsfagenes egenart skaper sterkt varierende oppfatning av hva gyldig kunnskap er i faget.

Vage kompetansemål kombineres med sporadisk og lite systematisk samarbeid rundt vurderingspraksisen (Sandsmark 2012, s. 80). Det er liten grunn til å anta at bildet for ungdomstrinnet er vesentlig annerledes. Lærerne er rett og slett ikke enige om hva som er fagets kjerne, og heller ikke hva det vil si å være dyktig i samfunnsfag.

Det er også kjent at det er forskjeller mellom skoler her til lands når det gjelder vurderingspraksis (Sandvik og Buland 2014), og i hvor stor grad skolene jobber med å utvikle egen undervisningspraksis (Postholm m.fl. 2013). Skolen skal være en enhetsskole, men det er betydelige forskjeller mellom skolene når det gjelder hvordan lærerne jobber.

Om det er slike forskjeller som gir seg utslag i de forskjeller vi har sett når det gjelder hvordan ferdighet og kompetanse vurderes i samfunnsfag, må undersøkes nærmere. Men selv om vi ikke vet årsakene godt nok, så gir våre tall og de andre undersøkelsene et relativt entydig bilde: Det er stor variasjon mellom skoler i Norge både i undervisningspraksis og i hvordan elevene blir vurdert. Denne variasjonen er såpass stor at det gir grunnlag for å stille spørsmål både om enhetsskolens mål om like muligheter og ikke minst det som man i norsk sammenheng ikke har vært så eksplisitt opptatt av: rettferdighet.

Noen er likere enn andre

Det er relativt store forskjeller mellom norske skoler i hvordan kunnskap og ferdigheter i samfunnsfag vurderes. Analysen vår viser at det er stor sannsynlighet for at du ville kunne fått en annen standpunktkarakter på en annen skole dersom du hadde vist de samme ferdigheter der. Det er en betydelig andel av «andre forhold» enn elevenes ferdigheter som er avgjørende for karaktersettingen. Dette understøtter det vi allerede har sett fra annen forskning og tallmateriale, og det gir støtte til OECDs bekymring for mangel på rettferdighet i det norske skolesystemet og om at elevvurderingen er pålitelig.

Skolene prioriterer også forskjellig med hensyn til hvilken kunnskap elevene skal få. Det er selvsagt en god, men naiv tanke å tro at alle elever skal kunne alt. Det vil også begrense den enkelte skoles og lærers handlingsrom å tvinge en fast mal – en kanon – for hva elevene skal kunne. Vi mener de forskjeller vi ser mellom skolene her, likevel er av en slik art at det er grunn til å tematisere hva vi vil med faget og hva lærerne bør kunne; hvordan samfunnsoppdraget skal løses profesjonelt.

Disse forskjellene kan kanskje imøtegås med å lage tydeligere retningslinjer slik som OECD antyder, gjennom for eksempel tydeligere nasjonale vurderingskriterier. Men det kan også være at man må vektlegge et annet forhold som OECD peker på: Stimulere til profesjonell læring. Samfunnsfag er ikke det faget som gir høyest prioritet i norsk skole. Det er altfor ofte slik at lærere uten formell kompetanse i faget blir satt til å undervise. Det er også slik at lærere med formell kompetanse i samfunnsfag ikke underviser i samfunnsfag (Caspersen m.fl. 2014). Det er videre relativt store forskjeller landet rundt i hvor stor grad samfunnsfaglærerne har formell kompetanse (Lagerstrøm m.fl. 2014).

Om vi ikke kan si generelt at lærerne og faget mangler en faglig profesjonell diskurs, så er den i hvert fall å finne i svært ulik grad i Skole-Norge. Å bygge opp lærernes kompetanse og støtte den faglige diskursen, vil antakelig bedre støtte opp under utviklingen av en rettferdig vurdering enn forskrifter og nasjonale retningslinjer. Brukt på en riktig måte kan de karakterstøttende prøvene bidra til denne profesjonelle utvikling. Det fordrer imidlertid at lærerne ikke bare bruker prøvene for å vurdere elevenes ferdigheter, men også til å vurdere egen undervisnings- og vurderingspraksis.

Litteraturhenvisninger

American Educational Research Association (2014). Standards for educational and psychological testing. Washington, D.C.: American Educational Research Association.

Caspersen, J., Aamodt, P.O., Vibe, N. & Carlsten, T.C. (2014). Kompetanse og praksis blant norske lærere: Resultater fra TALIS-undersøkelsen i 2013.

Furr, R.M. & Bacharach, V.R. (2008). Psychometrics: an introduction. Los Angeles: Sage Publications.

Galloway, T.A., Kirkebøen, L.J. & Rønning, M. (2011). Karakterpraksis i grunnskoler. Sammenheng mellom standpunkt- og eksamenskarakter. Oslo-Kongsvinger: Statistisk sentralbyrå.

Gravaas, B.C., Hægeland, T., Kirkebøen, L.J. & Steffensen, K. (2008). Skoleresultater 2007 – en kartlegging av karakterer fra grunn- og videregående skoler i Norge. SSB-notat.

King, B.M., Rosopa, P. og Minium, E.W. (2011). Statistical reasoning in the behavioral sciences. Hoboken, NJ: Wiley.

Koritzinsky, Th. (2012). Samfunnskunnskap: fagdidaktisk innføring. Universitetsforlaget.

Lagerstrøm, B.O., Moafi, H. & Revold, M.K. (2014). Kompetanseprofil i grunnskolen: hovedresultater 2013/2014. Oslo: SSB.

NOU 2003:16 I første rekke. Forsterket kvalitet i en grunnopplæring for alle. Oslo: Utdannings- og forskningsdepartementet. 

NOU: 2002:10 Førsteklasses fra første klasse. Oslo: Departementenes servicesenter, Informasjonsforvaltning.

Nusche, D., Earl, L. Maxwell, W. & Shewbridge, C. (2011) OECD Reviews of Evaluation and Assessment in Education: Norway. Paris: OECD Publishing.

Postholm, M.B., Dahl, T., Engvik, G., Fjørtoft, H., Irgens, E. J., Sandvik, L. V. og Wæge, K. (2013). En gavepakke til ungdomstrinnet? En undersøkelse av den skolebaserte kompetanseutviklingen på ungdomstrinnet i piloten 2012/2013. Trondheim: Program for lærerutdanning, NTNU.

Prøitz, T.S. & Borgen, J.S. (2010) Rettferdig standpunktvurdering – det (u) muliges kunst? NIFU STEP rapport 16/2010

Rao, C.R. og S. Sinharay (2007). Psychometrics. Amsterdam: Elsevier.

Sanders, J.R. & Beywl, W. (2006). Handbuch der Evaluationsstandards die Standards des “Joint Committee on Standards for Educational Evaluation”. Wiesbaden: VS Verl. Fur Sozialwiss.

Sandvik, L.V. & Buland, T. (2014). Vurdering i skolen: utvikling av kompetanse og fellesskap: sluttrapport fra prosjektet Forskning på individuell vurdering i skolen (FIVIS). Trondheim: NTNU program for lærerutdanning.

Sætre, P.J. (2010). Vurdering av lærebøker. I: Mikkelsen, R. og Sætre, P.J. (red.): Geografididaktikk i klasserommet: en innføringsbok i geografiundervisning for studenter og lærere. Kristiansand: Høyskoleforlaget.

Utdanningsdirektoratet (2010). Rundskriv 1: Individuell vurdering. Oslo: Utdanningsdirektoratet.