Vurdering i historiefaget: Er det mulig å overliste en chatbot?
Hva gjør vi med vurdering når chatboter som ChatGPT ikke bare kan gi oss alle svarene, men også skrive fiks ferdige «elevsvar» i en stil som ligner elevenes, inkludert grammatiske feil? Er det fortsatt mulig å designe vurderingsoppgaver hvor elevene får vist sin selvstendige kompetanse?
Nye læreplaner gjør det nødvendig å tenke nytt om både undervisning, læring og vurdering. Det er forhåpentligvis en kreativ og fruktbar prosess. Kjerneelementene har kanskje hjulpet oss på veien mot en slik forståelse av hva fagets sentrale innhold, tenkemåter og metoder er.
Ikke før vi så vidt har begynt denne tenkningen, dukker det opp en ny utfordring – det tilsynelatende allvitende monsteret ChatGPT, som truer all selvstendig produksjon av mening og tekst. Men kan disse to utfordringene slås sammen slik at tenkningen om faget og undervisningen kommer enda lenger? Kan utfordringen fra ChatGPT i realiteten bringe oss nærmere realiseringen av intensjonene i LK20? Ikke bare må vi spørre hvilken kompetanse som skal vurderes, vi må også finne tilnærminger og vurderingsformer som gjør det mulig for elevene å vise sin selvstendige kompetanse, og ikke hva ChatGPT-en kan sette sammen av forhåndsinnlært kunnskap. Lar det seg i det hele tatt gjøre? Kan vi designe oppgaver som både bidrar til å vurdere den faglige kompetansen læreplanen har som intensjon at elevene skal tilegne seg, og som ChatGPT ennå ikke er så god til å løse?
To løsninger synes åpenbare, men neppe fullgode.
Slå av nettet og mer muntlig vurdering
Å slå av nettet under vurderingssituasjoner er åpenbart en løsning for å gjøre ChatGPT irrelevant. Spesielt i forbindelse med større vurderingssituasjoner som heldagsprøver o.l. vil dette være relevant. Utdanningsdirektoratet har allerede bebudet at flere eksamener vil gjennomføres uten nettilgang. Men i den daglige undervisningen, der elevene også skal kunne vise sin kompetanse, vil denne løsningen kanskje ikke være praktisk mulig, ei heller ønskelig.
Flere muntlige vurderingssituasjoner vil også være en åpenbar vei å gå. Denne vurderingsformen er allerede mye i bruk. Samtidig er det et krav om at vi har variasjon i vurderingsformer. Etter at prinsippet om grunnleggende ferdigheter ble innført, skal også historiefaget drive skriveopplæring. Forestillingen om at historie er et «muntlig fag», er rett og slett ikke riktig. Historie er like mye et skriftlig som et muntlig fag! På samme måte som «det dunkelt sagte er det dunkelt tenkte», vil også det «dunkelt skrevne være det dunkelt tenkte». Derfor kan vi ikke gi opp treningen og vurderingen av det presist skrevne.
Slik jeg oppfatter det, er disse løsningene mulige, men neppe fullgode. Hva kan vi da gjøre? Er det mulig å lage oppgaver som ChatGPT foreløpig ikke er så god på å løse? Jeg har neppe funnet endelige svar og løsninger, men ønsker likevel å presentere noen foreløpige resultater etter å ha forsøkt å «lure» ChatGPT.
Verken lukkede eller åpne oppgaver er svaret Vurderingsoppgaver vi antagelig må slutte med, er de åpne oppgavene av typen «Redegjør for den teknologiske utviklingen i Norge på 1800-tallet». Å svare på slike spørsmål er «gefundenes fressen» for ChatGPT. Et godt eksempel på det fikk vi da en elev ved Elvebakken videregående ville teste hva ChatGPT kunne få til. Hun hadde fått i oppgave å skrive en tekst om teknologiens påvirkning på Norge på 1800-tallet. Den ChatGPT-genererte teksten ble vurdert til karakteren 5 (VG, 12.01.2023).
Lukkede oppgaver er heller ingen løsning. De vil i stor grad kun være faktasjekkende, og dermed vil ikke elevene kunne få uttrykt sin kompetanse. Kompetansebegrepet krever som kjent at elevene skal kunne anvende kunnskaper og ferdigheter i kjente og ukjente sammenhenger. Min anbefaling er da at vi må gå mot det ukjente i jakten på et svar.
Hva kan da være mulige alternativer? Jeg har utsatt ChatGPT for tre oppgavetyper som kanskje kan være mulige alternative vurderingsinnganger der ChatGPT som hjelpemiddel blir minimalisert.
Tolke og anvende historisk materiale
LK20 framhever kildekritikk som en sentral historiefaglig kompetanse. Hvor god er ChatGPT til det? I min lek med ChatGPT-en hadde jeg noen antagelser om hva den ikke kunne få til. Det første var at den kanskje ikke er så god på å tolke og anvende historisk materiale som kilder. Den kan sikkert gjengi innholdet, men klarer den å sette kilden inn i en historisk kontekst og anvende den på gitte problemstillinger?
Første test var å be ChatGPT om å tolke Tronfølgeloven av 1163. Tolkningen var bokstavelig og med stor grad direkte gjengivelse av innholdet. På spørsmål om hvorfor loven ble innført, ble svaret vagt og nok en gang preget av gjentakelse. Når spørsmålet var hva kilden kan brukes til, svarte ChatGPT at den kan brukes til å «forstå prosessen for valg av konge i Norge på den tiden denne teksten ble skrevet, og kan også gi informasjon om rollene til kirken og andre ledere i samfunnet i valg av konge». Det er et relevant svar, men lite konkret og utfyllende.
I kildegransking vil spørsmålet om kildematerialets anvendbarhet ofte stå sentralt. Hvor god er en kilde til å gi svar på de spørsmålene vi stiller? En viktig erkjennelse er at anvendbarhet alltid må ses opp mot hva vi er interessert i å finne ut. En relevant oppgave for å vise slik kompetanse kan være å gi elevene 3−4 ulike kilder og be dem om å begrunne hvilken som er mest egnet til å gi svar på et spørsmål, for eksempel: «Hvis vi skal forsøke å besvare problemstillingen X, hvilken av kildene A, B, C eller D vil være den mest anvendbare? Begrunn svaret ditt.» En neste oppgave kan være: «Lag en annen problemstilling som gjør kilde C til den mest anvendbare.»
Følgende oppgavevariant ble gitt til ChatGPT.
Hvilken av disse tre kildene er mest anvendbare hvis vi skal forklare hvorfor Frankrike var med på å kolonisere Afrika?
1. Leon Gambetta: «For å fortsette å være en stor nasjon, eller for å bli en, må man kolonisere.»
2. Pierre Paul Leroy-Beaulieu: «Kolonialisme er et spørsmål om liv og død for Frankrike. Enten blir Frankrike en stormakt i Afrika, eller så vil vi i løpet av et århundre bli en annenrangs europeisk stat. Da vil vi telle like mye i verdenspolitikken som Hellas og Romania teller i europeisk politikk.»
3. Winston Churchill: «Hva kan et opplyst samfunn gjøre som er mer edelt og som gir mer belønning enn å fri fruktbare regioner og store befolkninger fra barbariet? Å gi fred til stridende stammet, å administrere rettferdighet der det før bare var vold, å utnytte jordens rikdommer, å plante de første frø for handel og utdanning, å øke hele befolkningers muligheter til å føle glede og minske sjansene for smerte – hvilket vakrere ideal eller en mer verdifull belønning kan inspirere til menneskelig innsats? Handlingen er dydig, øvelsen forfriskende, og resultatet ofte ekstremt lønnsomt.»
ChatGPT mener kilde 2 er mest anvendbar og begrunner dette med at den «argumenterer for at kolonialisme var et nødvendig skritt for å sikre Frankrikes status som en stormakt og unngå å bli en annenrangs europeisk stat». Svaret er ikke spesielt utfyllende, og den gjør heller ikke en vurdering av de tre opp mot hverandre. På spørsmål om ikke også kilde 1 egentlig sier det samme som kilde 2, svarte ChatGPT at det er likheter, men at kilde 2 likevel er mer anvendbar fordi den går «mer i dybden og gir en konkret årsak», nemlig spørsmålet om liv eller død for Frankrike. ChatGPTs svar kan betraktes som et «face value»-svar med direkte sitater fra kilden. I mindre grad vurderes og veies kildene opp mot hverandre, og slik sett blir det i beste fall et middels godt svar. Men for mange elever vil det kanskje være godt nok.
Min lille test av ChatGPTs kildegranskingsevner kan antyde at den får til noe, men av begrenset kvalitet. Kildegranskingsoppgaver kan derfor gis, men vi må understreke at elvenes valg, vurderinger og sammenligninger må begrunnes, gjerne fulgt opp med konkrete sitater fra kildematerialet. På den måten kan elevene ta selvstendig stilling til materialet og bruke sine kunnskaper om perioden i sine begrunnelser. Helt vanntette for ChatGPT-innflytelse blir likevel ikke slike oppgaver.
«Tren tanken» (TT) som vurderingsoppgaver
Fra tv-programmet Nytt på nytt kjenner vi oppgaven «Hvem skal ut?». Dette er et eksempel på en TT-oppgave. Slike oppgaver kjennetegnes ved at elevene får utlevert et materiale (gjerne kort med ulike stikkord eller bilder) som de skal bruke til å ta stilling til et spørsmål eller en problemstilling. Et viktig poeng er at det ikke finnes et entydig riktig svar. Elevene vil derfor komme fram til ulike løsninger. Dermed blir deres bruk av faglig kunnskap avgjørende i begrunnelsene for valgene de har tatt.
«Ballongdebatt» er en annen TT-variant. I kurven på en luftballong sitter det en rekke historiske personer, men det er for mange av dem, og noen må ut for at ballongen skal kunne holde seg flygende. Hvilke av de historiske personene mener du er så viktige at de kan få bli igjen i luftballongen? Hvem er ikke så viktige? Er det andre historiske personer som heller burde vært med i ballongen?
Konfrontert med en slik oppgave kom ChatGPT raskt til kort. Test nummer to var følgende oppgave: «
Adolf Hitler, Einar Gerhardsen, Barack Obama og Karsten Korbøl», fikk jeg svært oppsiktsvekkende svar. Tilsynelatende svarer den på spørsmålet om de historiske personenes betydning, men i svært liten grad verken kan eller vil den vurdere personene opp mot hverandre. ChatGPT vegrer seg altså for å ta stilling.Poenget med en slik oppgave er å utvikle forståelse for og diskutere begrepet betydning. Derfor var det ikke av ren selvopptatthet at jeg inkluderte meg selv, men for å kunne gi en dimensjon til vurderingen av spørsmål som: «Hva vil det si å være historisk betydningsfull? Hva skal til for å være betydningsfull? For hvem er noen betydningsfulle?» Å vurdere historisk betydning er selvfølgelig avhengig av hvilke kriterier vi legger til grunn, men det er også en del av poenget. Det vi kan se på som viktig og betydningsfullt i én sammenheng eller fra et gitt ståsted, vil ikke være det hvis vi skifter perspektiv. Diskusjoner om betydning har altså tydelige koblinger til historieforståelse og historiebevissthet.
Lage og vurdere problemstillinger
Den tredje testen jeg ga ChatGPT, var å lage problemstillinger. Oppgaver som enten dreier seg om å lage eller vurdere kvaliteten på problemstillinger, kan få fram elevenes faglige forståelse og kompetanse. Stilt overfor tre forskjellige problemstillinger til et tema kan vi be elevene om å ta stilling til og begrunne hvilken de mener er mest relevant eller interessant.
Da jeg ga ChatGPT en lignende oppgave, ble svaret: «Det er vanskelig å si hvilken av de tre problemstillingene som er mest interessant, da det avhenger av ens egne interesser og forskningsfokus». I og med at ChatGPT ikke har noen interesser, vil den enn så lenge heller ikke kunne gi relevante svar på slike spørsmål.
Hva kan være fruktbare vurderingsoppgaver?
Disse tre enkle testene kan antyde at med litt kreativitet og vekt på historiefaglig tenkning og metode vil vi fortsatt kunne drive meningsfull vurdering i historie. Jeg ser for meg flere mulige tilnærminger som jeg mener vil fange opp sentrale intensjoner i LK20.
1. Finne, bruke og vurdere historisk materiale
Skal vi bruke historisk materiale i oppgaver, må vi kreve at elevene bruker materialet til selvstendige vurderinger etterfulgt av begrunnelser. Oppgaver vi gir, må ikke kunne løses uten en aktiv bruk av et vedlagt historisk materiale. Elevene må også ta stilling til materialets anvendbarhet på gitte problemstillinger eller bruke det til å konstruere sammenhenger og fortellinger. Materialet kan være både kjent og ukjent, og bestå av tekster og bilder. Med slike oppgaver vil vi kunne vurdere elevenes kildekompetanse.
2. Rangeringer og diskusjon av betydning og relevans
Dette kan være oppgaver som dreier seg om å rangere ulike årsaker, virkninger eller betydning. For å løse slike oppgaver må elevene bruke både kunnskaper, tenkning og ferdigheter. Deres grad av historieforståelse vil komme til uttrykk gjennom begrunnelsene de har. Diskusjoner om relevans kan også knyttes til elevenes egne oppfatninger av hvor viktig fortiden er. Et spørsmål som «På hvilken måte er det viktig for deg i dag at vi diskuterer delingen av Afrika?» kan invitere elevene til refleksjon over fortidens relevans.
3. Kreative utfordringer
«Create something interesting to show that you have learned something», har noen ment kan være et godt utgangspunkt for vurdering (Knight, 2008). Alle vurderingsformer som innebærer at elevene må ta i bruk sine kreative ferdigheter, enten det er tegning eller bygging av modeller i LEGO eller plastilin, vil mest sannsynlig fortsatt fungere som vurderingsform. Et eksempel kan være tegning av «veikart» (Foster, 2008; Korbøl, 2020), hvor elevene må velge ut og framstille viktige hendelser knyttet til et tema. I og med at slike kreative produkter ikke snakker for seg selv, er det nødvendig med skriftlige eller muntlige redegjørelser for valg, tolkninger og vinklinger. Slik kan elevene få uttrykke sin forståelse av årsak−virkning, betydning og perspektiv. Et annet eksempel hvor historiebevissthet og historiebruk gjøres til gjenstand for vurdering, er at elevene får i oppgave å lage et nytt eller alternativt minnesmerke for en historisk hendelse (Knutsen, 2023).
4. Det personlige
I arbeid med mikrohistorie, som egen familiehistorie, vil ChatGPT neppe ha stor verdi. Kildemateriale hentet fra eget hjem vil ChatGPT ha problemer med å forholde seg til. I HIFOs historiekonkurranse «Min familie i historien» er viktige oppgaver for elevene å finne og bruke historisk materiale samt stille spørsmål og lage en historisk framstilling. Elevene får også utfordringen med å koble egen familiehistorie til større historisk tematikk. Dette mikrohistoriske prosjektet er med andre ord egnet til å vurdere mange kompetanser på samme tid.
Felles for disse fire tilnærmingene er at begrunnelser for valg og vurderinger har en sentral posisjon. Det er også tilnærminger som krever en eller annen form for kritisk utforskning hvor elevene må forholde seg til historisk materiale eller konstruere eller bruke historie. De stiller også krav til begrunnelser og metaperspektiver. Å svare meningsfullt på slike utfordringer vil ChatGPT enn så lenge ha store problemer med.
En hjelp til å realisere læreplanen?
Er det mulig å overliste chatboten? Mitt svar er «ja, enn så lenge», men det krever at vi tenker nytt og kreativt om både læring, vurdering og ikke minst hva det vil si å kunne historie. For egen del står det klarere at undervisningen i enda større grad må være utforskende og vektlegge fagets tenkemåter og metoder, noe læreplanens kjerneelementer også understreker. Paradoksalt kan kunstig intelligens bidra til å dytte oss i den retningen, og dermed virke til at intensjonene om dybdelæring og kritisk tekning blir realisert.
Litteraturhenvisninger
Foster, R. (2008). Speed cameras, dead ends, drivers and diversions: Year 9 use a ‘road map’ to problematise change and continuity’. Teaching History, 131, s. 4−8. http://www.jstor.org/stable/43259335
Knight, O. (2008). ’Create something interesting to show that you have learned something’: Building and assessing learner autonomy within the Key Stage 3 history classroom. Teaching History, 131, s. 17−24. http://www.jstor.org/stable/43259337
Knutsen, K. (2023). Historiebevissthet og historiebruk i skolen. En praktisk veileder for lærere og lærerstudenter. Cappelen Damm Akademisk.
Korbøl, K. (2020). «Veikart til den franske revolusjon» – forståelse gjennom tegning i historie. Historiedidaktikk-blogg. https://historiedidaktikk.blogspot.com/2020/10/veikarttil-den-franske-revolusjon.html
VG (12.01.2023) Leverte tekst skrevet av AI – slik reagerte skolen. https://www.vg.no/ nyheter/i/JQlQ1b/leverte-tekst-skrevet-av-ai-slik-reagerte-skolen