Visning av skriftlig innspill

Krav om to sensor og underveisvurdering

Utdannings- og forskningskomiteen,

Høringssvar av ledere av fem Sentre for Fremragende Utdanning: bioCEED (UIB), CELL (UIO), Matric (UiA), Excited (NTNU), CCSE (UIO).

Vi takker for muligheten til å komme med innspill på Kunnskapsdepartementets forslag i Prop 111L (2020-2021) Endringer i universitets- og høyskoleloven, utdanningstøttesloven, fagskoleloven og yrkeskvalifikasjonsloven mv. (samleproposisjon). Våre innspill bygger på våre erfaringer som sentre for fremragende utdanning (SFU), der vi har gått i bresjen for utvikling, innføring, og evaluering av studentaktive undervisningsformer i et bredt spekter av fagfelt og institusjoner.

Våre kommentarer og innspill knytter seg særskilt til delkapittel Krav om to sensor drøftet i Prop 111L (2020-2021) kap 7.2. Vi er kritiske til videreføringen av forslaget om to sensorer fra Universitets- og høyskolelovutvalgets utredning NOU 2020: 3 Ny lov om universiteter og høyskoler. Dessuten er vi uenige med utvalgets tidligere avvisning av underveisvurdering, og at dette temaet ikke ble adressert i Prop 111L. Våre innspill og hovedanbefalinger er at Stortinget:

1) Avviser Kunnskapsdepartementets forslag om krav om to sensorer til alle karakterbaserte vurderinger.
2) Introduserer underveisvurdering av læringsaktiviteter som eksamensform.

Vi er også kritiske til andre konklusjoner, som at proposisjonen har droppet utvalgets forslag om å gå bort fra blind omsensur ved klager (Prop 111L kap 2.2.2) og ikke støtter innføring av tretrinns karakterskala (kap 2.2.3). Men vi fokuserer på de mest kritiske elementene i proposisjonen, som kan ha langvarige, negative konsekvenser i utdanningssektoren.

1. Grunnleggende forutsetninger:

a) Loven må legge god og kunnskapsbasert pedagogisk praksis til grunn. Loven er sterkt førende for vår undervisnings- og vurderingspraksis og bør derfor aktivt bidra til å fremme og støtte opp om god, kunnskapsbasert pedagogisk praksis. Vi mener derfor det er viktig at loven tar inn over seg, og bruker, en språkbruk og analyse som er basert på moderne pedagogikk. Vi noterer at Prop 111L, som utvalgets NOU, mangler forankring i pedagogisk forskning på mange kritiske punkter.

b) Loven må fremme riktig og effektiv ressursbruk i sektoren. Loven, og de praksiser den vil kreve og legge opp til, vil være svært førende for hvordan høyere utdanningsinstitusjoner skal forvalte sine ressurser. Det er viktig at lovteksten og språkbruken dytter denne ressursbruken i retning av praksiser og tiltak med dokumentert effekt på læring og undervisningskvalitet. Altså at den legger til rette for og understøtter at også læringsmetodene (undervisning og vurdering) i høyere utdanning skal være kunnskapsbaserte (se spesielt diskusjon av konsekvenser av krav om to sensorer nedenfor).

c) Loven må bygge videre på tidligere og pågående utviklingsprosesser. En del viktige og grundig omtalte temaer og problemstillinger fra andre styrende dokumenter (f.eks. St.meld 16 Kultur for kvalitet) later ikke til å være brukt i utvalgets arbeidet med ny lov. Vi setter pris at det ble referert kort til i Prop 111L, men våre anbefalinger peker på slike koblinger på en ordentlig måte, og er et forsøk på å legge til rette for større samsvar mellom språkbruk, lov og praksis. (se spesielt omtale av meningsskapende samsvar og bruk av snevre og utdaterte begreper som ’eksamen’ m.m.).

d) Loven må sikre studentenes rettigheter, men også deres interesser. Den må avveie positive effekter av å sikre studentenes rettigheter mot (uintenderte) negative effekter av måten disse rettene sikres på, hvor de blir til hinder for (eller virke som et disinsentiv mot) studentaktive undervisnings- og vurderingspraksiser med dokumentert god effekt på læringsutbytte. Vi er enige i at rettssikkerhet og rettferdig vurdering skal sikres både materielt og gjennom gode og åpne prosesser for kvalitetssikring.

2. Overordnet kommentar: Loven må legge til rette for meningsskapende samsvar mellom læring og vurdering

Meningsskapende samsvar mellom undervisning og vurdering er et mål og en ambisjon for moderne høyere utdanning (Biggs & Tang ,2011; Kunnskapsdepartementet, 2016). Målet med meningsskapende samsvar er å oppheve skillet mellom undervisning og vurdering, slik at læringsaktiviteter og vurdering flyter sammen. Gjennom fagets læringsaktiviteter opparbeider studentene kunnskaper, kompetanser, og ferdigheter som beskrevet i læringsutbyttebeskrivelsen, og demonstrerer samtidig at de behersker dem. Vurderingen blir en naturlig del av læringen. Forskning viser at meningsskapende samsvar fremmer læring og motivasjon hos studentene, og kan øke vurderingens reliabilitet (Biggs 1999, Biggs & Tang 2011, McMahon & Thakore 2006, Morris 2008, Moulding 2010, Taylor & Canfield 2007 m.fl).

Dessverre ble ikke dette grunnfjellet i pedagogisk forskning tatt med på alvor av utvalget og vi ser konsekvensene i Prop 111L. I underkapittel 21.4.2.1 ‘Underveisvurdering og eksamen’ i utvalgets utredning finner vi:

Utvalget mener det skal være rom for å ha andre vurderingsformer enn tradisjonelle eksamener. Etter utvalgets oppfatning er ikkegjeldende universitets- og høyskolelov til hinder for dette. Utvalget vil presisere at institusjonene har mulighet til å tilby varierte lærings- og vurderingsformer, slik som «underveisvurdering». Denne vurderingsformen skal ikke telle med i den endelige karakteren som fremkommer på vitnemålet, men har til hensikt å fremme studentenes læring. Denne vurderingen kan heller ikke påklages (NOU 2020:3, s. 198, vår utheving).

Utvalgets definisjon av underveisvurdering er utydelig. Det defineres både på en materiell måte («formativ vurdering», s. 196) og en formell måte («ikke tellende og kan ikke påklages», s. 197). Det skaper litt forvirring siden en del formativ vurdering kan telles som sluttvurdering under dagens lovverk.[1] Men det som var klart fra rapporten er at utvalget er mot at loven skal mykes opp i retning av at en større andel og økt mangfold av underveisvurdering kan telles i den endelige karakteren (eller som en separat karakter). Istedenfor anbefalte utvalget en rekke tiltak som vil gjøre dagens restriktive politikk enda mer restriktiv, for eksempel krav om konsekvent bruk av to sensorer.

Denne tilnærmingen strider mot selve ideen bak meningsskapende samsvar. NOU’en går videre igjennom høringsinnspill fra UHR, NHO, og Christian Jørgensen (UiB) som alle ønsker eksplisitt åpning for bruk av et bredere spekter av vurderingsformer, noe som vil muliggjøre reell formativ vurdering og meningsskapende samsvar. Utvalget konkluderer allikevel:

Etter utvalgets vurdering er det vanskelig å se hvilke lovendringer som kan bøte på utfordringen UHR peker på når det skriver at «lovens fokus på forelesninger og krav om offentlighet har liten relevans», og at den nye loven heller bør «oppfordre til undervisnings- og læringsformer som i større grad krever aktiv deltakelse fra studentene». Utvalget ser det som mest hensiktsmessig med en rammelov som ikke stiller detaljerte krav til institusjonene, blant annet til hvordan institusjonen legger opp undervisningen. (ibid, vår utheving)

Dette siste er vi helt enige i, men i motsetning til utvalget konkluderte vi med at dette fordrer en endring av loven, der spesielt rammene rundt vurdering (aka ‘eksamen’, se nedenfor) må mykes opp for å gi institusjonene større autonomi - ikke strammes inn, slik lovforslaget legger opp til. En rammelov også for valg av vurdering, slik utvalget argumenterer for valg av undervisning, ville jo nettopp gitt institusjonene frihet til å velge ikke bare undervisningsformer, men også vurderingsformer tilpasset faget og læringsutbyttene. Det foreliggende forslaget er imidlertid ikke en slik oppmyking, man faktisk en betydelig innsnevring av mulighetsrommet rundt vurdering, med store konsekvenser for meningsskapende samsvar, underveisvurdering og ressursbruk.

3. Eksamen med to sensor

I Prop 111L 2.7.2 konkludere departementet at:

Departementet foreslår å innføre krav om to sensorer ved alle eksamener der vurderingsuttrykket er gradert med karakterskalaen A til F. Departementet foreslår også å lovfeste et krav om uavhengighet til den utdanningen der vurderingen skjer, for minst en av de to sensorene.

Departementet viser til forslaget til endring i § 3-9 andre ledd.

Dessverre er det mange ulemper med dette kravet. Obligatorisk bruk av to sensorer for alle typer vurdering (og ved klage, §8-10) på høyere og lavere nivå vil i praksis føre til en stor dreining av faglig og administrativ ressursbruk fra undervisningen og læringsarbeidet til vurdering. En rasjonell institusjon eller underviser vil under et slikt regime ikke prioritere meningsskapende samsvar mellom undervisning og vurdering, noe som vil gi økte kostander til vurdering og klagebehandling, men heller enkle og operasjonaliserbare eksamensformer.

Et gjennomgående krav om to sensorer kan gi en vridning vekk fra den store variasjonen i mer aktive undervisnings- og vurderingsformer som allerede er i bruk, og tar i liten grad innover seg behovet for videre innovasjon og utvikling av utdanningen. Drøftelse av dette spørsmålet i Prop 111L tar ikke på alvor budsjettmessige konsekvenser or implikasjoner for god pedagogikk. Gjennomgående krav om to sensorer er sammenlignbart med den gamle ordningen med krav om ekstern sensor.

I Prop 111L 2.7.2 påstås det at: «Forarbeidene viser til at når flere er sammen om sensuren, øker sjansene for at det gir en mest mulig korrekt karakter. Når sensorer regelmessig sensurerer i

fellesskap og det varierer hvem en sensor har som «med-sensor», kan det utvikle seg en «sensorkultur» for hva som er gode og mindre gode måter å løse oppgavene på.» Men Kunnskapsdepartement tar ikke høyde for forskningen som viser at denne ordningen ikke øker reliabiliteten ved vurderingene (se f.eks. Raaheim 2000; Rasch og Eriksen 2009). Vi risikerer altså en ordning som krever økte ressurser, men som i praksis ikke øker studentenes rettsikkerhet, ei heller bidrar til større grad av «vitenskapelighet» i vurderingene.

Ordningen med ekstern programsensor (forankret i §8-6, første ledd) er viktig, og kan gjerne styrkes og kobles til eller gjøres valgbar mot bruk av eksamenssensor (§8-7). Gjennom program- og emne-sensur kan institusjonene bruke sensorer mer helhetlig til å vurdere og kvalitetssikre innhold og samsvar i undervisning, undervisningsformer, og vurderingsopplegg opp mot læringsutbyttebeskrivelsen. En slik større autonomi rundt bruk av sensorer vil kunne tillate institusjonene å ta i bruk sensorene og deres ressurser på en mer helhetlig måte, tilpasset faglige og lokale behov. Programsensur kan dermed utvikles fra en ren kontrollfunksjon til en utviklings- og studiekvalitetsstøtte. Studentenes rettssikkerhet ivaretas gjennom klageordningen (med to sensorer), gjennom å tydeliggjøre at vurderingen skal være kriteriebasert, og gjennom at kriterier og kriteriebruk nivelleres og kommuniseres eksplisitt og åpent gjennom sensorveiledningen.

Det er også viktig å påpeke at kravet om økt bruk av ekstern sensor er lite realistisk av praktiske grunner. Ved flere universiteter og høyskoler består studieprogrammer av spesialiserte emner, der det allerede er problemer med å finne nok kvalifiserte eksterne sensorer eller å få fagfolk til å prioritere denne typen arbeid. Lovforslaget antar en nærmest ubegrenset tilgang til eksterne sensorer – noe som ikke samsvarer med virkeligheten eller ressurstilgangen i sektoren.

I forslaget fra utvalget til ny UH-lov var det også et argument med at to sensorer vil bidra til færre klager over tid. Dersom studentene vet hva de skal lære (læringsutbyttebeskrivelser), hvordan de vil bli vurdert og hva som er forventet (vurderingskriterier) og får tilbakemelding på egen prestasjon (begrunnelse) vil studentene får vurdering for læring, og kunne gjøre en egenvurdering. Dette vil også være ressurskrevende, men vil være en investering i studentens læring og bidra til meningsskapende samsvar av læringsutbytter, undervisning og vurdering. Det er god grunn til å tro at det også vil redusere antallet klager.

4. Underveisvurdering

I NOUen blir altså reelt tellende underveisvurdering effektivt parkert, mens vurderingen antyder at eventuell ren ‘formativ underveisvurdering’ kan skje som en del av obligatoriske arbeidskrav som ikke skal telle mot karakter. Dette har flere negative konsekvenser:

Viktig læringsarbeid der man har mulighet til å få tilbakemelding blir utelatt fra vurderingen (eller plassert i en "må være godkjent"-kategori). Studentene skjønner imidlertid godt forskjellen mellom det som teller og ikke teller – de er både strategiske og smarte – og det er godt dokumentert gjennom forskning at vurderingen er styrende for studentenes valg av læringsstrategi (se f.eks. Raaheim 2019; Biggs & Tang 2011)
Summativ slutteksamen vil nok en gang fremstå som "den enkleste og mest ryddige" løsningen, og vurderingsformer med tilbakemelding og reell tellende underveisvurdering (som brukt rett gir dokumentert bedre læring, se ovenfor) kan tilsynelatende være mindre "lovlige" og føre til problem ved klage etc. Vi risikerer en reversering tilbake mot mer bruk av tradisjonell eksamen, bort fra vurdering som kan inkludere praktiske og ferdighetsbaserte læringsutbytter (kategoriene ferdigheter og generell kompetanse).
Mulighetene for constructive alignment /meningskapende samsvar (CA) blir vanskeliggjort av at man ikke kan integrere undervisning og formativ underveisvurdering – som også kan være tellende. Faktisk kan man si at dette strider mot hele grunntanken i CA – som nettopp går ut på at undervisning og vurdering ikke er, og ikke bør være, to forskjellige og separerte aktiviteter, men være tett integrert!
Dette er til hinder for internasjonalt pedagogisk utviklings- og forskningssamarbeid – dersom Norge velger en annen vei enn utviklingen vi ser internasjonalt, vil det være vanskelig å samarbeide om utvikling av emner, program og læringsressurser, og forskning på disse. I utlandet ser man nå i økende grad at det benyttes karaktergivende underveisvurdering, med-studentvurdering mellom studentene, og muligheten til å opparbeide seg forskjellige typer ’poeng’ gjennom studentaktive læringsaktiviteter.

Prop 111L, i likhet med lovendringsforslaget fra utvalget, berører ikke underveisvurdering - så her er det mer mangel på inkludering av dette som del av vurderingen. Problemstillingen med underveisvurdering, obligatoriske arbeidskrav og sluttvurdering har vi kjent på lenge, men her velger man å ikke adressere det utover en diskusjon i NOU’en, med en konklusjon om at underveisvurdering ikke skal være tellende i endelig karakter (NOU 2020:3, s. 198). Vi ønsker en formulering i lovgivning som åpner for at ulike former for skriftlig, muntlig, og praktisk underveisvurdering av kunnskap, ferdigheter, og generell kompetanse skal kunne telle mot den endelige karakteren.

5. Konklusjon

Vi påpeker at vi er opptatt av at studentenes rettssikkerhet og interesser i god undervisning og rettferdig vurdering må ivaretas på en helhetlig måte. Viktige komponenter i dette er meningsskapende samsvar mellom læringsutbyttebeskrivelser, læringsaktiviteter, og vurderingskriterier; gode sensorveiledninger som bidrar til at kriterier og kriteriebruk nivelleres og kommuniseres eksplisitt og åpent; kriteriebasert vurdering; og klageordningen (med to sensorer).

Et konkret eksempel på hvordan innstramminger (to sensorer) og manglende omtale (underveisvurdering) kan hindre god praksis er beskrevet av MN-UiBs Pedagogiske Akademi (meritterte undervisere) i deres uttalelse til UiB i forbindelse med den første høringen til utvalgets arbeid:

Pedagogisk litteratur og teori påpeker positive effekter av underveisvurdering med tilbakemelding (formativ vurdering) og dette fremheves flere steder i NOU 2020:3. Flere studentaktive arbeidsformer innebærer at studentene får poengmessig uttelling for arbeider underveis, hvor disse poengene teller med når karakter skal fastsettes. Dessverre vil kravet om to sensorer gjøre slik bruk av poeng i tilknytning til formativ vurdering betraktelig vanskeligere. (...) Team-based learning er en veletablert metodikk som forutsetter at poeng gis på flere små tester underveis og at disse teller litt mot karakteren. Det er praktisk umulig å ha med sensor på mange undervisningstimer i løpet av semesteret for å gjennomføre dette, så team-based learning blir i praksis forbudt eller man må undervise en særnorsk, vingestekket variant. (...)

Vi bekymrer oss for at forslaget om to sensorer vil føre til nye og sterke insentiver som vil fremme vurdering lavt i Blooms kognitive taksonomi. Jo høyere kognitive egenskaper man tester, jo vanskeligere er det å gi et fullt overblikk over innhold og diskusjoner som har funnet sted i undervisningen, og slik gi en sensor utenfra all informasjon som er nødvendig for å gjenkjenne studentenes selvstendige og kreative bidrag. Antagelig vil en direkte eller indirekte effekt bli at eksamensoppgaver formuleres slik at de to sensorene lett blir enige, det vil si tettere på fakta og lenger unna kritisk analyse og kreativitet.

Generelt ser vi i sektoren en økende diversitet i vurdering og mer bruk av flere vurderingselementer med tilbakemelding og dette er en positiv utvikling vi er redd kravet om to sensorer vil stanse eller reversere. Vi er bekymret for at mange undervisere vil velge å redusere antall vurderingselementer når alt må gjennomgås sammen med en ekstern sensor. Dette vil hindre en ønsket utvikling i retning av flere og mer varierte vurderingselementer innenfor emnene. (...)

Med vennlig hilsen

Sehoya Cotner

SFU bioCEED – Senter for fremragende utdanning i biologi

Malcom Langford

CELL - Centre on Experiential Legal Learning

Guttorm Sindre

SFU Excited – Centre for Excellent IT Education

Thomas Gjesteland

SFU Matric – Centre for Research, Innovation and Coordination of Mathematics Teaching

Anders Malthe-Sørenssen

SFU CCSE – Center for Computing in Science Education

Referanser

Biggs, J. (1999). What the Student Does: Teaching for enhanced learning. Higher Education Research & Development, 18(1), 57-75.

Biggs, J. og Tang, C. (2011) Teaching for quality learning at university. New York: McGraw-Hill Open University Press

Gynnild, V. (2013). "Kriteriebasert vurdering" - hva innebærer det i praksis? Uniped [elektronisk Ressurs] : Tidsskrift for Universitets- Og Høgskolepedagogikk, 36(1), 26-41.

Kunnskapdepartementet. (2016). Kultur for kvalitet i høyere utdanning.(Meld. St. nr 16 2016-2017)

McMahon, T. and Thakore, H. (2006). Achieving constructive alignment: putting outcomes first, The Quality of Higher Education, 3: 10-19

Morris, M.M. (2008). Evaluating university teaching and learning in an outcome-based model: replanting Bloom. Doctoral dissertation, University of Wollongong

Moulding, N.T. (2010). Intelligent design: student perceptions of teaching and learning in large social work classes. Higher Education Research and Development, 29,2: 151-65

Raaheim, A. (2000). En studie av inter-bedømmer reliabilitet ved eksamen på psykologi grunnfag. Tidsskrift for Norsk Psykologforening, 37, 203-213.

Raaheim, A. (2019). Eksamensrevolusjonen : Råd og tips om eksamen og alternative vurderingsformer (2. utgave. ed.). Oslo: Gyldendal.

Rasch, Bjørn Erik & Eriksen, Sara Kristine (2009). En eller to sensorer? Et eksperiment i sosial interaksjon. Tidsskrift for samfunnsforskning, 50(3), s 293- 316

Taylor, R. And Canfield, P. (2007). Learning to be a scholarly teaching faculty: cultural change through shared leadership, in A. Brew and J. Sachs (eds) The transformed University: Scholarship of Teaching and Learning in Action. Sydney: Sydney University Press.

[1] Utvalget anerkjenner denne (s. 196) men tar ikke inn over seg konsekvenser av sine to forskjellige definisjoner for både lovtolkning og tolkningen av sine konklusjoner.

[2] jf Retningslinjer for bruk at det nasjonale karaktersystemet https://www.regjeringen.no/no/dokumenter/retningslinjer-for-bruk-at-det-nasjonale/id91189/

Stortinget.no

Skriftlig innspill fra CELL på vegne av ledere av fem Sentre for framragende utdanning (SFU-er)

Krav om to sensor og underveisvurdering