Ny studie om lärare som bedömare: Om hökar, duvor och koltrastar i bedömning av nationella prov

Erica Sandlund, Docent i engelska

Källa:

Sandlund, E., & Sundqvist, P. (2021). Rating and reflecting: Displaying rater identities in collegial L2 English oral assessment. In M. R. Salaberry & A. R. Burch (Eds.), Assessing speaking in context – Expanding the construct and its applications (pp. 132-162).  Multilingual Matters.

Känner du dig som en hök eller en duva jämfört med dina lärarkollegor när du bedömer och betygsätter elevprestationer? Har du i egenskap av mentor eller vårdnadshavare hört elever prata om hur olika lärare bedömer elevuppsatser, prov eller muntliga presentationer ”hårt” eller ”snällt”? Hur formas och framträder sådana bedömarprofiler? En ny studie om bedömning av muntlig färdighet i språk sätter fokus på just hur lärare – i sitt bedömaruppdrag – formulerar och förklarar vilken typ av bedömare de är. Kapitlet, som är skrivet av Erica Sandlund och Pia Sundqvist är publicerad i boken Assessing speaking – Expanding the construct and its applications och är ett resultat av två tidigare forskningsprojekt inom Centrum för språk- och litteraturdidaktik.

Studien intresserar sig för hur lärare diskuterar sina enskilda bedömningar av den muntliga delen av det nationella provet i engelska i årskurserna sex och nio med engelsklärarkollegor från andra skolor. I Sverige, till skillnad från i många andra länder, är det ju oftast elevens egna ämneslärare som bedömer elevens prestation på de nationella proven. Vi har länge intresserat oss för lärares bedömningspraktiker vad gäller det muntliga nationella provet i engelska, vilket vi skrivit om i flera andra sammanhang (se exempelvis här, här, och här) och i studien använder vi oss av två olika videoinspelade datamaterial. I det ena har vi spelat in fyra grupper av engelsklärare som först har bedömt ett inspelat elevprov från årskurs nio individuellt, och sedan träffas i grupper om tre eller fyra lärare för att diskutera och enas om ett provbetyg för de två eleverna utifrån Skolverkets bedömningsanvisningar för provet. I det andra datamaterialet finns liknande bedömarmöten för nationella prov i engelska i årskurs sex, där elva lärare deltog i en fortbildning med fokus på bedömarträning. Lärarna hade ombetts att diskutera sina enskilda bedömningar och också sätta sina bedömningar i relation till de andra deltagarnas, och till Skolverkets betygsättning av dessa elevprov. Det är här fåglarna i rubriken kommer in – vi forskare presenterade begreppen duva, hök och koltrast som metaforer för olika typer av bedömare. Höken ser allt och tenderar att vara sträng i sina bedömningar medan duvan är generös och mäklar fred med elevprestationens kvaliteter. Koltrasten, slutligen, är den som ligger mitt i prick – den som ligger väldigt nära den standard som elevprestationen ska bedömas efter. I vår studie var Skolverkets egna exempelprov med tillhörande betygsättning en sådan standard (eller benchmarks, som man brukar kalla dessa normvärden).  Lärarna i detta projekt fick göra en mängd individuella bedömningar av muntliga elevprov och fick sedan återkoppling från forskarna på hur de bedömt i förhållande till Skolverket. Därefter diskuterade de både återkopplingen och sin syn på de olika elevproven.

Varför är det då intressant och viktigt att studera hur lärare positionerar sig som bedömare? Ja, något som forskning kring bedömning, bedömare och bedömarträning länge visat är att det är väldigt svårt att uppnå såväl samsyn (om vad som ska bedömas) och samstämmighet (olika bedömare sätter samma betyg) i bedömning – särskilt om det handlar om bedömning av komplexa förmågor som skrivande och muntlig färdighet (se exempelvis Jönsson och Thornbergs artikel från 2014 som diskuterar detta). Dels kan tolkningsutrymmet göra det möjligt med olika förståelse av det som ska bedömas (i vårt fall, muntlig produktion och interaktion på engelska); dels har alla bedömare sina erfarenheter och uppbyggda kunskap från olika skolor, färdighetsnivåer och arbetssätt, och det är sannerligen inte enkelt att vara säker på om ett ”B” i ens egen klass motsvarar exakt samma färdighetsnivå som ett ”B” på en annan skola. Den kollegiala miljön, möjligheterna till sambedömning och fortbildning, samt erfarenhet som lärare är några faktorer som kan spela in för hur man bedömer – och uppfattar sig själv som bedömare. I den här studien undersöker vi hur lärarna reflekterar kring sig själva som bedömare i relation till sin egen bedömningspraktik och i förhållande till kollegor.

Inom forskningen har flera vägar till ökad samsyn och samstämmighet prövats och diskuterats. Språkforskaren Glenn Fulcher (2003) betonar exempelvis vikten av att socialisera in bedömare i en gemensam förståelse av matriser och bedömningsfaktorer. Sambedömningsmöten kan vara ett sådant forum eftersom lärare får möjlighet att arbeta gemensamt med faktiska elevprestationer och därmed öka samsynen om vad som ska bedömas. Detta kan också ske genom individuell och gemensam reflektion över den egna professionella praktiken (Mann & Walsh, 2013) där lärare/bedömare, i samtal med andra, kan få syn på egna preferenser och tendenser i bedömningen i relation till kriterier och kollegial kunskap.

Studien visar att lärarna i båda videomaterialen förhöll sig till en slags skala för ”bedömarstränghet”, vilket på engelska kallas rater leniency (generositet) och rater severity (stränghet) i sina beskrivningar och förklaringar kring individuella bedömningar och den egna bedömarprofilen. Man positionerade sig i förhållande till kollegor och lokala förhållanden på den skola man arbetar på, och detta särskilt för att motivera varför man bedömt hårdare eller mer generöst än de andra deltagarna och/eller Skolverket. Om man upptäcker att man är en generös duva förklaras detta exempelvis med att kollegor upplevs som väldigt hårda och man har velat lyfta fram elevprestationens kvaliteter som kontrast. Har man fått klart för sig att man är mer av en hök förklaras det exempelvis med osäkerhet eller avsaknaden av ämneskollegor på skolan, och där man tydligt kopplar ihop yrkesprofessionalitet med stränghet. Det upplevdes alltså som ett ”säkrare” alternativ att vara lite ”för sträng” än att vara ”för snäll”. Lärarna i alla grupperna visar i sina samtal att det anses problematiskt att befinna sig i båda ytterkanterna av stränghets/snällhetsskalan, men också att det är än mer problematiskt att vara för generös än att vara för sträng i sina bedömningar. Detta kan vi se genom att lärarna ger en mängd förklaringar kring sina bedömningar om de visat sig vara hökar, och än mer om de visat sig vara duvor. Vi ser vidare att man förhåller sig till stränghet som ett tecken på professionalitet genom att beskriva Skolverkets bedömningar som bitvis för generösa.

Även om lärarna i just vår studie generellt sett bedömde elevprestationerna nära Skolverkets exempelbedömningar finns det alltid en risk att en social norm kring stränghet och professionalism leder bedömningspraktiken närmare höken än duvan, och längre ifrån koltrasten. Den stränghetsskala som vi ser att lärarna förhåller sig till är ju inget som finns i bedömningsmaterialet. Istället är det en underliggande och gemensam förståelseram som blir synlig i lärarnas samtal. Studien visade även att kollegiala samtal är en rik källa till gemensam och delad kunskap – både för forskare och i praktiken.

De forskningsprojekt som ligger till grund för analysen är Likvärdig bedömning i språk och Sambedömning som samtal. Läs gärna mer om dessa två projekt genom att klicka på länkarna. Hela kapitlet finns att ladda ner, skriva ut eller bara läsa här. Om effekterna på likvärdig bedömning av att få delta i ett bedömarträningsprogram av den typ som utvecklades och utvärderades inom EquA-projektet kan du läsa här.

Karlstad oktober 2021

Erica Sandlund