«Tause kriterier» ved evaluering av andrespråkstekster? – Centrum för språk- och litteraturdidaktik (CSL)

Seniorprofessor Lars Anders Kulbrandstad, Karlstads universitet

Som i andre land må voksne innvandrere i Norge dokumentere sine skriftlige språkferdigheter for å få tilgang til utdanning, arbeid og samfunnsliv ellers. For mange skjer dette ved at de avlegger en språktest hvor de blant annet skal skrive en sammenhengende tekst om et oppgitt tema. Sammen med Anne Golden ved Multling-senteret ved Universitet i Oslo og andre kolleger har jeg i flere arbeider utforsket hvordan slike tekster blir vurdert.

I Golden, Kulbrandstad og Tenfjord (2017) tok vi for oss 200 tekster fra det store ASK-korpuset, som består av innlærertekster forfattet av voksne med ti ulike førstespråk (Tenfjord, Hagen & Johansen, 2009). Tekstene vi analyserte, var skrevet av testtakere med bakgrunn i spansk og i vietnamesisk, og det dreide seg om en test på et nivå som noenlunde tilsvarer B1 i Det felles europeiske rammeverket CEFR. Grunnen til at vi ville undersøke akkurat disse to språkgruppene, var at de hadde blitt vurdert svært forskjellig da sensorer evaluerte tekstene i ASK-korpuset etter CEFR-skalaen i forbindelse med prosjektet ASKeladden – Morsmålstransfer i norsk innlærerspråk. Hele 55 % av tekstene i den vietnamesiske gruppen var plassert på A2, noe som indikerer at de var svakere enn det som skulle til for å bestå en test på det aktuelle nivået. Dette var tilfellet med langt færre av tekstene skrevet av spansktalende, nemlig 39 %. Målet med studien var å finne ut hvorfor det var slik.

Vi gransket et bredt spekter av variabler knyttet til flyt, korrekthet og kompleksitet, og kartla hvordan forfatterne framstod i tekstene gjennom blant annet bruken av pronomen og verb. Selv om en kombinasjon av fem variabler, hovedsakelig feilvariabler og antall ulike ord, så ut til å forklare hvorfor ganske mange av tekstene var blitt plassert på A2 eller B1, var det igjen en god del tekster der dette ikke var tilfellet. Vi lurte derfor på om andre forhold enn korrekt språk og variasjon i ordvalget også hadde spilt en rolle. Kunne det være slik at innholdet og den retoriske organiseringen av tekstene var blitt tillagt betydning, selv om de spesifikke vurderingskriteriene som CEFR angir, ikke trekker oppmerksomheten mot slike tekstaspekter? Og kunne forskjellen mellom den vietnamesiske og den spanske gruppen ha noe med dette å gjøre? Med det såkalte parallellkorpuset i ASK så Anne Golden og jeg en mulighet til å undersøke dette. Der er nemlig alle tekstene korrigert slik at det til hver originaltekst svarer en tekst uten ortografiske, morfologisk og syntaktiske feil.

Ut fra de 200 tekstene i den tidligere studien trakk vi 40 tekster, 20 fra hver av de to språkgruppene. Vi var hovedsakelig interessert i tekstene som ikke besto B1-nivået, og vi valgte derfor 30 som lå under B1 og 10 som lå på eller over dette nivået. Fra parallellkorpuset hentet vi korrigerte versjoner av alle disse tekstene, og med stikkordene ‘innhold’, ‘tekststruktur’ og ‘stil’ bad vi tolv erfarne sensorer vurdere tekstene ut fra en skala med tre nivåer: ‘god’, ‘middels’ og ‘svak’. Sensorene skulle også gi en kort skriftlig begrunnelse av vurderingen. De fikk vel å merke ikke vite hvordan tekstene var blitt vurdert i sin originale versjon.

I analysen sammenliknet vi den opprinnelige evalueringen av tekstene med hvordan den korrigerte versjonen var blitt vurdert, og så hvilke tekster som hadde tjent på at feilene var blitt korrigert, hvilke som tvert imot hadde tapt på dette, og hvilke som verken hadde tjent eller tapt. Videre undersøkte vi feilfrekvensene i den originale versjonen av tekster som hadde kommet sterkere ut og tekster som hadde kommet svakere ut når den korrigerte utgaven ble evaluert. Vi kategoriserte også måten sensorene hadde begrunnet evalueringene sine på, og vi var da særlig interessert i de tekstene som var blitt vurdert som svake. I alt dette hadde vi fokus på forskjeller mellom tekster skrevet av testtakere fra hver av de to språkgruppene.

Hva fant vi så ut? Her er det bare plass for viktigste funnene: Det viste seg at tekster skrevet av spansktalende testtakere lettere «hoppet» opp til en bedre vurdering enn tekster skrevet av forfattere med vietnamesisk som førstespråk. Dette kan tyde på at den spanske gruppens tekster gjerne hadde kvaliteter som blir verdsatt av norske sensorer, men at disse egenskapene var blitt maskert av feil i den opprinnelige versjonen. De vietnamesisktalende skrivernes tekster manglet derimot oftest slike foretrukne trekk.

Hvilke egenskaper det er tale om, kom fram i sensorenes vurderingsbegrunnelser. Om tekster som ble vurdert som gode, skrev sensorene ofte at de gav svar på oppgaven, de hadde et velutviklet innhold, det var tydelig struktur og sammenheng i dem, og språket var klart og variert. Svake tekster ble generelt sagt å mangle svar på oppgaven eller å gi et mangelfullt svar. De var uklart eller kaotisk organisert og manglet sammenheng i teksten som helhet og/eller innenfor avsnitt. Språket manglet klarhet, det var brukt et begrenset ordforråd, og det var mange uidiomatiske uttrykk.

Vår tentative forklaring på disse funnene var at de vietnamesisktalende testtakerne hadde vært mer opptatt av å unngå feil på ord- og setningsnivå enn å skrive om temaet som oppgaveteksten krevde, å lage en tydelig strukturert og sammenhengende tekst og å bruke et rikt og variert språk. Dette er det nærliggende å se i sammenheng med vekten på formell korrekthet som forskere framhever som et sentralt trekk ved tradisjonell sørøst-asiatisk skolekultur.

Det er viktig at de som underviser innlærere med en slik bakgrunn, blir klar over at forhold som dette og tar opp kulturforskjeller i tekstnormer og tekstevaluering i undervisningen. Det betyr ikke at de rådende normene og evalueringskriteriene er uforanderlige og ikke kan utfordres. Men man må unngå at skrivere og testtakere som ikke er vant med de aktuelle normene og kriteriene, blir vurdert ut fra «tause kriterier».

Studien i denne artikkelen er publisert i en bok utgitt på forlaget Multilingual Matters. Les mer om den her.

Golden, A., Kulbrandstad, L. A. & Tenfjord, K. (2017). Evaluation of texts in tests, or: where is the dog buried? I A. Golden, S. Jarvis & K. Tenfjord (Red.), Crosslinguistic influence and distinctive patterns of language learning : findings and insights from a learner corpus (s. 231-271). Bristol: Multilingual Matters.

Tenfjord, K., Hagen, J. E. & Johansen, H. (2009). Norsk andrespråkskorpus (ASK)-design og metodiske forutsetninger. NOA Norsk som andrespråk, 25(1), 52-81.