Fagartikkel

Tekstvurdering og skriveprøven

En gruppe lærere er blitt spesielt skolert i å vurdere elevenes resultater på utvalgsprøvene i skriving. En undersøkelse viser at lærerne endrer sin vurderingspraksis etter hvert som de får mer skolering og blir mer rutinerte. Men fortsatt blir mange hengende igjen i tidligere praksis der formative og private vurderingsstrategier konkurrerer med det felles vurderingsgrunnlaget som er etablert.

Forfatter

Publisert 11.07.2016

Kildens publiseringsdato 17.03.2016

Hvordan kommer lærere fram til hva en elevtekst er «verdt»? Vi liker å tro at en slik prosess er faglig forankret og at den er felles for alle skrivelærere, spesielt i tilfeller hvor elevtekstene sammenlignes på tvers av klasser, skoler og kommuner. Erfaring fra forsøket med nasjonal prøve i skriving fra 2005 lærte oss at dette ikke var tilfelle (Thygesen, Berge, Evensen & Fasting, 2007).

Lærernes vurderinger sprikte da så mye at det ikke var mulig å finne samsvar mellom vurderingene og elevtekstenes faktiske kvalitet. I utviklingen av nye skriveprøver har det derfor vært viktig å forbedre kvaliteten av tekstvurderingene for at disse skal bli til å stole på. Det er flere måter å gå fram på for å undersøke om kvaliteten av tekstvurderingene blir bedre. En vanlig måte er å overvåke samsvaret mellom ulike læreres vurderinger.

Dersom ulike lærere gir lik score for den samme prestasjonen, er det grunn til å tro at de ser de samme kvalitetene i prestasjonen. Målet er selvsagt at flest mulig lærere skal vurdere den samme prestasjonen likt, men vi vet at absolutt samsvar ikke er oppnåelig, spesielt ikke ved store sammenlignende skriveprøver. I et utviklingsperspektiv, hvor lik vurderingspraksis er et stykke unna, kan det derfor være like nyttig å undersøke prosessene som leder fram til en bestemt score. Hvordan argumenterer lærerne i vurderingsarbeidet?

Med en slik tilnærming er det mulig å undersøke faktisk vurderingspraksis, noe som gir grunnlag for å forstå hva utfordringene med å utvikle lik vurderingspraksis bunner i. Og om man vil, kan man også kritisk vurdere om noen vurderingsstrategier er bedre enn andre uavhengig av om mange lærere benytter seg av dem. Nettopp et slikt prosessperspektiv ble anlagt da jeg i et doktorgradsarbeid undersøkte læreres tekstvurderingspraksiser knyttet til utvalgsprøver i skriving.¹ ( Jølle, 2015)

Bakgrunn

Da det i 2009 ble besluttet at skriveprøvene skulle gjenoppstå, ble det omtrent samtidig besluttet at den nye skriveprøven måtte få en design som gjorde vurderingsutfordringen håndterbar. Det ble ansett som viktig å kommunisere tydelig til lærerne som skulle stå for vurderingene av elevtekstene, en felles forståelse av hva man mener med skriving og tekstskaping.

Skolering av lærerne i skriveprøvens teoretiske forutsetninger måtte altså til.² Men å skolere alle lærerne ville ikke være mulig. En konsekvens ble da at skriveprøven ble gjort om til utvalgsprøve, det vil si at et representativt utvalg elever fra bestemte årskull (etter 4 og 7 års opplæring) ble trukket ut til å gjennomføre skriveprøven. Til forskjell fra 2005-prøven, der lærerne selv vurderte ute i skolene, fikk man nå et redusert antall prestasjoner som skulle vurderes av en dedikert gruppe lærere.

Denne dedikerte gruppen, omtalt som vurderingspanelet, består i dag av i underkant av 100 lærere. Halvparten av disse vurderer elevtekstene fra endt småtrinn, mens de øvrige vurderer elevtekstene fra endt mellomtrinn. Panelet er semipermanent, har bestått siden 2010, og møtes over to dager to ganger i året for skolering, diskusjoner og vurderingsarbeid. Målsettingen er at det relativt stabile panelet skal utvikle et faglig tolkningsfellesskap over tid som gjør utvalgsprøvene til et gyldig referansepunkt for lærere ute skolene når de tar i bruk de læringsstøttende skriveprøvene.³

Vurderingsarbeidet

På tre påfølgende samlinger i 2011/2012 fulgte jeg lærerne i deres vurderingsarbeid. I tillegg til observasjonsnotater, resulterte dette i et relativt stort datamateriale bestående av transkripsjoner av lydopptak av lærerpar eller treergrupper som vurderer elevtekster. Lærerne vurderer nemlig sammen, og deres jobb er å snakke seg fram til enighet om hva de ulike elevtekstene er verdt innenfor de ulike tekstdimensjonene: kommunikasjon, innhold, tekstoppbygging, språkbruk, tegnsetting og rettskriving.

For elevene som har endt småtrinnene, er skalaen tredelt (M1 – M3), mens den er femdelt (M1 – M5) for elevene som har gjort ferdig mellomtrinnene. For begge skalaene gjelder det at midtkategorien symboliserer det som er forventet etter henholdsvis fire og sju års skriveopplæring.

Enkelt sagt var jeg i avhandlingsarbeidet interessert i hva lærerne brukte som argumenter for å overbevise sine vurderingskollegaer om at egne synspunkter om elevtekstene var gyldige, hvordan de responderte på kollegaenes synspunkter, og om vurderingssamtalene endret karakter i løpet av året etter hvert som de ble mer erfarne og skolerte.

Undersøkelsene

Jeg startet med å kategorisere lærernes argumentasjonsmåter (hvordan de argumenterte) og responsmåter (hvordan de (verbalt) reagerte på kollegaens argumenter). Hypotesen var at de erfarne lærerne tok med seg sine mer eller mindre private vurderingspraksiser inn i panelet, men at de over tid i stadig mindre grad ville anvende disse praksisene, og at de i større grad ville ta i bruk de felles ressursene som var tilgjengelige, slik som vurderingsskjemaet og vurderingsveiledningen. Disse felles ressursene skal nettopp se til at et faglig fundert tolkningsfellesskap blir utviklet. Det var også derfor jeg var opptatt av hvordan de responderte på hverandres meninger. Var de lydhøre for det nye, for argumentene som lå i de felles ressursene når kollegaene tok disse i bruk? I analysene fant jeg en slik endring. Lærerne viste en viss tilbøyelighet til å ta i bruk de nye ressursene.

Særlig vurderingsveiledningen som inneholder både nivåbeskrivelser og vurderingseksempler, ble tatt stadig mer i bruk i løpet av det knappe året jeg fulgte lærernes arbeid. Endringene var likevel ikke betydelige (se Jølle, 2014). I tillegg fant jeg, og det var kanskje vel så interessant, at lærerne i omtrent 80 prosent av tilfellene aksepterte en kollegas argument umiddelbart, og at dette var stabilt over tid. Det vil si at lærerne sjelden avviste eller stilte spørsmål til kollegaers påstander om tekstkvalitet. Det er fristende å konkludere med at «ordet fanger», det vil si at den første som ytrer seg, får gjennomslag for sine argumenter.

La oss se på et utdrag fra en typisk vurderingsdialog som illustrerer dette. Vi går inn der lærerne Tom og Trude er i ferd med å vurdere en elevteksts språkbruk:

Tom: Så er det setningsstrukturen.
Trude: Ikke mye feil der.
Tom: Nei, han har-. Teksten er koherent. «Det er en viktig innsats som kan styrke-,» «I tillegg til at-,» Ja, den er faktisk-, Den delen refererer til-, og den delen refererer til denne.
Trude: Mhm. Så dette er temmelig rett frem.
Tom: Så han har faktisk kohesjon. Han har bedre kohesjon enn jeg så først.
Trude: Så er det M3 da, kanskje?
Tom: Ja, fordi han har setningskoblere og avsnittskoblere faktisk.
Trude: Mhm. Men mangler innhold.
Tom: Ja, ikke mange har kohesjon mellom avsnittene.

Vi ser at lærerne er på vei mot noe nytt: Vi vet fra tidligere studier at lærere har en tendens til å vurdere elevteksten holistisk. Skillelinjene mellom de ulike tekstdimensjonene blir temmelig tåkete, og lærerne ender opp med et helhetsinntrykk av elevteksten som grunnlag for «dommen». I utdraget ser vi at Tom og Trude følger prøvedesignet og unngår dette. De skiller således mellom tekstens innhold (som tydeligvis er mangelfull) og tekstens komposisjon og språkbruk (som de mener er som forventet, M3).

Men i begrunnelsen for dommen er det vanskelig å se at Tom og Trude bygger på annet enn de erfaringene de har med seg inn i vurderingspanelet. De tar altså ikke i bruk de felles normgivende vurderingsressursene som er tilgjengelige. Vi ser også hvordan samtalen er dominert av bekreftelse og enighet. Alle initiativ i utdraget blir møtt med enighet fra vurderingspartneren. De snakker seg ikke fram til enighet; de blir enige i og med den første ytringen.

Utdraget avslører at det er vanskelig å gjenskape forbindelsen mellom vurderingen og nivåplasseringen. Siden lærerne ikke tar i bruk felles og delte normative beskrivelser om tekstkvalitet, forblir nivåplasseringen tilfeldig og privat. Sagt på en annen måte: Siden lærerne ikke viser til felles vurderingsressurser i arbeidet, blir det mindre sannsynlig at vurderingene kan reproduseres av andre lærere. Og nettopp reproduserbarhet er et kvalitetskjennetegn for pålitelige tekstvurderinger.

Når lærerne i denne studien ikke så lett tar i bruk de felles normgivende vurderingsressursene, dukker spørsmålet opp om hvilke gjentakende strategier lærerne da faktisk tar i bruk. Jeg fant tre hovedstrategier som viser seg å være suksessfulle i så måte. En av disse er, skal vi si heldigvis, knyttet til bruken av de felles vurderingsressursene. De to andre er henholdsvis knyttet til en utbredt læringsfremmende vurderingspraksis og en privatpraktiserende praksis. Vi skal kort se på alle tre.

Læringsfremmende vurderingspraksis

Det er grunn til å anta at lærere, særlig på de lavere årstrinn siden elevene her ikke blir vurdert i form av karakterer, har en tendens til å avpasse responsen til elevene etter deres oppfatning av elevenes individuelle potensial. Det betyr at lærerne ikke vurderer elevtekstene ut fra felles forventningsnormer, men heller ut fra mål som blir ansett å være realistiske for den enkelte. For å unngå en slik sammenblanding av elev og prestasjon i utvalgsprøvene, er elevtekstene som lærerne i vurdererpanelet vurderer, anonymiserte. Likevel ser det ut til at lærerne finner det vanskelig å ikke ta hensyn til eleven, som har en tendens til å manifestere seg i teksten.

Til tider er denne tilbøyeligheten så sterk at lærerne til og med skaper imaginære formative vurderingssituasjoner der de ser for seg samtalen med eleven. I vurderingen av en ellers sterk tekst skrevet av «en grei og arbeidsom elev» sier for eksempel en lærer at «[teksten] din er kanskje for muntlig med alle disse parentesene», men «fordi du mestrer så mange andre ting så bra», bestemmer lærerne seg for ikke å trekke for åpenbare svakheter. Lærerne har også mentale bilder av «late gutter»-tekster. Da kommer det utsagn som «jeg forstår ikke hva han babler om!», «Han forstår ingenting!», og «Han er helt fortapt!». Det er all grunn til å tro at det følger en strengere vurderingspraksis med en slik språkbruk enn med vokabularet som følger med «grei elev»-tekstene.

Privat vurderingsstrategi

Gjennom flere år som skrivelærere ute i skolen har lærerne i vurderingspanelet opparbeidet seg oppfatninger om hva de forventer av elevene etter gitte årstrinn. Denne erfaringen tar de med seg når de vurderer utvalgsprøvene, og vi ser at lærerne eksplisitt lener seg til disse erfaringene. I det korte utdraget under, hvor Anne og Tone er i ferd med å konkludere om en elevteksts rettskriving, ser vi hvordan Anne trumfer Tone gjennom å vise til egen erfaring:

Tone: Alt i alt så synes jeg dette er som forventet. Han bruker ikke mange kompliserte ord, egentlig.
Anne: I min syvendeklasse ville han vært langt over gjennomsnittet.
Tone: Ja?
Anne: Ja. Etter min oppfatning er rettskrivingen her bedre enn det som kan forventes.
Tone: Da markerer vi at det er bedre enn forventet, da.

Andre ganger ser det ut til at lærerne ikke engang trenger å sette ord på arbeidet de gjør. De ser ut til å være enige uten noen form for diskusjon. Eksemplet under fungerer som illustrasjon:

Tore: Det er ei jente.
Gunn: Som skriver direkte til en leser. Så, jeg synes dette er en M3, ja. Selvsagt.Tore: Enig.
Gunn: Flott, flott, flott, flott. Så, da er det M3 på både kommunikasjon og innhold.
Tore: Ja, det vil jeg si.
Gunn: Ja.

Det er ønskelig – og uunngåelig – at lærerne støtter seg til sine personlige normer i arbeidet. Likevel er det problematisk fordi tidligere studier har vist oss at norske lærere ikke deler oppfatning om hva man skal forvente av elevene på ulike årstrinn (Fasting, Thygesen, Berge, Evensen & Vagle, 2009). En utstrakt bruk av personlige normer som vurderingsstrategi utfordrer utviklingen av en felles vurderingskultur. Når denne praksisen i tillegg er taus, som det siste utdraget er et eksempel på, forblir de overveielsene som lærerne gjør, ukjente.

Felles vurderingsstrategi

Som nevnt var det en tendens til at lærerne tok i bruk vurderingsveiledningen stadig mer når de skulle felle dommer over tekstene. Veiledningen inneholder foruten informasjon om vurderingsskalaen og de ulike tekstdimensjonene tekstene skal vurderes i, beskrivelser av hva som forventes innenfor de ulike skalanivåene i de ulike tekstdimensjonene, samt tekstvurderinger som eksemplifiserer forventningsnormene. Beskrivelsene og teksteksemplene er nøkkelressurser i arbeidet med storskala tekstvurdering (Sadler, 1987). Jeg tar med et eksempel på hvordan lærerne tar i bruk veiledningen. I utdraget er tre lærere usikre på hvordan de skal vurdere kommafeil som dukker opp i en elevtekst:

Kåre: Men spørsmålet er hvor alvorlig slike kommafeil er?
Stine: Men hun er på vei…
Ragnhild: Hva sier vurderingsveiledningen om dette?
Kåre: Den sier at det er å forvente at eleven kan bruke komma både mellom helsetninger og etter foranstilt leddsetning.
Stine: Ja, det er riktig.
Kåre: Så, kanskje er hun litt under da?
Ragnhild: Ja.

Stine ønsker tydelig å premiere eleven for å være «på vei» (jf. formativ vurderingsstrategi beskrevet over), men ved å støtte seg til vurderingsveiledningens forventningsnormer blir de raskt enige om at eleven presterer «litt under». Dette er et lite eksempel, men det illustrerer noe sentralt: Med tanke på at hovedformålet for å etablere vurderingspanelet var å skape en felles vurderingspraksis, er eksemplet eksemplarisk. Legg også merke til hvordan lærerne når fram til beslutningen gjennom felles innsats.

Kåre reiser et viktig spørsmål som Stine svarer på ved å ta i bruk en formativ vurderingsstrategi. Ragnhild kommer så på banen og tilbyr en konkurrerende strategi som raskt finner støtte, også hos Stine. Selv om eksemplet er lite, viser det hvordan både dialogen i seg selv, som inneholder både støtte og grader av motstand (jf. Stines kommentar), og bruken av felles vurderingsressurser, bidrar til å gjøre vurderingen transparent, og dermed også reproduserbar.

Hvordan forstå dette?

I doktorgradsarbeidet har jeg altså vært opptatt av å forstå hva som foregår i fasen mellom lærernes lesning av elevteksten og vurderingen av tekstens dimensjoner. Jeg har også vært opptatt av om denne fasen endrer karakter etter hvert som lærerne blir mer skolerte og rutinerte. Undersøkelsene mine viser at lærerne endrer vurderingspraksis mot en felles praksis, men at disse endringene går langsommere enn man kanskje kunne håpe og anta. Lærernes opparbeidede måter å løse tekstvurderingsarbeidet på, og deres erfaringer om hva en tekst er «verdt», sitter i.

Dette skaper utfordringer for skriveprøven. En ting er at lærerne anvender flere samtidige strategier som trekker i ulike retninger. Eksemplene viser i så måte hvordan private og formative strategier er gode strategier med tanke på å nå fram til en beslutning, men at de er mer problematiske med tanke på å utvikle tolkningsfellesskap. En annen ting er at studien viser at det er et tidkrevende arbeid å skape et slikt tolkningsfellesskap.

Det blir gjort mye riktig arbeid med å utvikle skriveprøven. Håpet må være at lærernes arbeid innenfor vurderingspanelet får tid til å utvikle seg slik at vi på sikt får det kvalifiserte ekspertvurdererpanelet som Skole-Norge trenger som premissleverandør for den kvalifiserte elevtekstvurdering. Kanskje viktigere i så måte vil det være at en slik skriveprøve, dersom den viser seg å være vellykket, indirekte også vil være premissleverandør for skolens skriveopplæring.

Forfatter

Publisert 11.07.2016

Kildens publiseringsdato 17.03.2016

Litteraturhenvisninger

Fasting, R., Thygesen, R., Berge, K.L., Evensen, L.S., & Vagle, W. (2009). National assessment of writing proficiency among Norwegian pupils in compulsory schools. Scandinavian Journal of Educational Research, 53, 617–637.

Jølle. L. (2014). Pair assessment of pupil writing: A dialogic approach for studying the development of rater competence. Assessing Writing: An International Journal, 20, 37–52.

Jølle, L. (2015). Vurderingsdialogen. En undersøkelse av tekstvurderingspraksis ved nasjonal læringsstøttende prøve i skriving. Trondheim: Norges teknisknaturvitenskapelige universitet, HiST NTNU.

Sadler, D.R. (1987). Specifying and promulgating achievement standards. Oxford Review of Education, 13, 191–209.

Thygesen, R., Berge, K.L., Evensen, L.S., Fasting, R.B. (2007). Sluttrapport: nasjonale prøver i skriving som grunnleggende ferdighet [Final report: National tests in writing as a key competency]. Stavanger: Nasjonalt senter for leseopplæring og leseforsking, Universitetet i Stavanger.