Denne uken publiserte vi resultatene fra en psykometrisk oversikt over kvaliteten på kartleggingsverktøy som brukes i norsk skole.

Prosjektet er en del av Anne Arnesens doktorgradsprosjekt og ble gjennomført samme med kollegene Johan Braeken (Center for Educational measurement) og Terje Ogden (NUBU).

Anne og jeg smiler fordi artikkelen er publisert-men resultatene er lite å smile av

 Prosjektet er todelt:

1. Først sendte vi en spørreundersøkelse til et stort utvalg norske kommuner for å høre om hvordan de kartlegger elevenes lesing og sosiale ferdigheter. Resultatene for lesing er vist nedenfor. Som vist er det mange verktøy for lesing, og Carlsten og ordkjedetesten er den mest vanlige. For sosiale ferdigheter er det langt færre verktøy som er i bruk, bare 4 kunne inkluderes i den endelige vurderingen. For lesing er de aller fleste verktøyene rettet mot teknisk lesing og ordavkoding, det er lite på leseforståelse.

 Resultatene for lesing

2. Deretter vurderte vi kvaliteten på kartleggingsverktøyene. Vi så da spesielt på deres psykometriske kvalitet, altså hvor gode sammenligningsgruppene var, hvordan målefeil er tatt hensyn til og om de kartlegger det som er intensjonen. Det er også viktig hvor gode verktøyene er til å fange opp de riktige barna, og å skille mellom hva som er noe som bør følges opp videre og hva som er mindre alvorlig.

Hva karakteriserer så den psykometriske kvaliteten på disse verktøyene? For å kartlegge kvaliteten på verktøyene, gikk vi nøye gjennom manualene og informasjonen som er tilgjengelig for hver av dem. Vi søkte også etter undersøkelser som er publisert hvor målet har vært å validere artiklene. For å vurdere verktøyene brukte vi EFPA test review model. Dette er det samme som brukes av Psyktest barn.

Hva fant vi? Vi fant at gjennomgående var verktøyene i liten grad kvalitetssikret. Få hadde representative og gode utvalg på sammenligningsgrupper og normer, få hadde undersøkt målefeil eller hva testen faktisk måler. Mange av testene hadde også uklare prosedyrer for gjennomføring. Analyser av falske negative og positive er i liten grad gjort.

Tabell 7 i artikkelen (Tabell 7 finner du her ) viser hvert av kartleggingsverktøyene og hvordan de skårer på den psykometriske vurderingen. Det mest interessante å se på der er kolonnene for normer, reliabilitet og validitet. Av de som er med er det bare språk6-16 og ordkjedetesten som skårer “god” på alle disse tre avgjørende dimensjonene. For de andre er dette enten ikke undersøkt eller rapportert eller det har ikke tilfredsstillende kvalitet. Den mest brukte, Carlsten, har ikke tilfredsstillende rapportering eller undersøkelse av verken validitet, reliabilitet eller normer.

Det at validitet og reliabilitet ikke er undersøkt, betyr det at verktøyet har svak kvalitet? Ikke nødvendigvis, men problemet er at vi ikke vet. Mange verktøy mangler også adekvate sammenligningsgrupper og har ikke undersøkt kuttpunkt, falske positive og negative, og det er svært uheldig for kvaliteten på verktøyet.

Hvorfor er dette alvorlig? I norsk skole tar man hver dag beslutninger om barn basert på disse verktøyene. Hvem skal henvises videre til PPT, hvem har lesevansker og trenger intensiv leseopplæring, og så videre. Det at verktøyenes psykometriske egenskaper i liten grad er undersøkt, betyr at de i liten grad er kvalitetssikret. Det kan føre til at vi trekker gale konklusjoner på spørsmål som er viktige for barns fremtid. Det er alvorlig.

Hva bør gjøres? Svaret på dette er ikke at vi skal slutte å kartlegge barn, det er fullt mulig å utvikle verktøy av høy kvalitet dersom vi bruker ressurser på dette. Mange undersøkelser viser at subjektive observasjoner er lite pålitelige, se for eksempel denne bloggposten. For å ha et godt grunnlag for å fatte beslutninger om faglig og sosial utvikling bør slike verktøy være en del av grunnlaget.

Det er imidlertid viktig at skoler, PP-tjenester og kommuner som har ansvar for kartlegging tar informasjonen fra vår artikkel på alvor og når det er mulig velge de verktøyene som har god vurdering på validitet, reliabilitet og normer i Tabell 7.

Vi er helt avhengig av at kartleggingsverktøy har god kvalitet. Til nå har mange av verktøyene våre vært utviklet av praktikere med gode intensjoner, men det har vært liten tradisjon for psykometriske vurderinger. Det bør derfor være en satsing fremover å utvikle et sett av gode redskaper og å kvalitetssikre de redskapene som allerede foreligger hvor dette ikke er gjort.

Vi trenger verktøy med normer basert på store representative sammenligningsgrupper, hvor målefeil er minimert, hvor det er undersøkt at verktøyet måler det vi ønsker det skal måle og hvor prosedyrer og skåring er klare. Verktøyene bør også ha kuttpunkter for hva som er et problem som bør følges opp videre eller ei, og kuttpunktet bør være grundig vurdert for falske positive og negative.

Artikkelen vår har åpen tilgang og kan lastes ned her.

Som nevnt er prosjektet en del av Anne Arnesens doktoravhandling. Anne har gjort et formidabelt arbeid med å samle inn og analysere dette materialet. Hun disputerer 21 mars. Vel møtt!