Når AI skriver oppgaveforståelsen – hva måler vi egentlig?

Skjermbilde av en AI-chatbot som genererer en lengre tekst med jevn struktur og ferdig formulerte avsnitt. — AI-modeller skriver flytende, strukturerte tekster på sekunder. Også oppgaveforståelse. Foto: Ehécatl Cabrera / Wikimedia Commons, CC BY-SA 4.0

Oppgaveforståelse er et av de mest brukte tildelingskriteriene i konsulentanskaffelser. På papiret virker det rimelig nok: leverandøren beskriver hvordan oppdraget skal løses, og oppdragsgiver vurderer kvaliteten på beskrivelsen.

I praksis er det vanskeligere å si presist hva man egentlig måler. Og når kunstig intelligens nå skriver stadig flere av disse besvarelsene, blir det enda mer påtrengende å spørre: Skiller kriteriet fortsatt mellom leverandørene – eller måler det i hovedsak det samme språkmodelluttrykket, om og om igjen?

Hva er det egentlig man vurderer?

Det er sjelden helt klart hva oppgaveforståelse skal være et mål på.

Noen ganger fremstår vurderingstemaet som kompetanse. Da leser oppdragsgiver besvarelsen som et bevis på at leverandøren har skjønt oppdraget, kjenner faget og har erfaring med slike oppgaver.

Andre ganger er det i realiteten løsningsmetoden som vurderes. Leverandøren beskriver hvordan oppdraget skal gjennomføres, hvilke faser som skal følges, hvilke verktøy som skal brukes. Oppdragsgiver evaluerer det konkrete forslaget.

Forskjellen er ikke akademisk. Hvis det er løsningsmetoden som er evaluert og scoret, blir den i praksis kontraktsfestet. Det får en konsekvens: under gjennomføringen kan konsulenten i liten grad fravike den metoden som ga uttelling i evalueringen, uten at det reises spørsmål om vesentlig endring.

Det er to ulike tildelingskriterier i ett og samme navn. Og sjelden gjøres det tydelig hvilket av dem oppdragsgiver faktisk har valgt.

Kompetansesporet: hvem skrev besvarelsen?

Hvis vurderingstemaet er kompetanse, melder spørsmålet seg umiddelbart: hvem sin kompetanse?

Utgangspunktet må være at det er konsulenten som tilbys – altså den eller de personene som faktisk skal utføre oppdraget – som må stå bak besvarelsen. Det er hans eller hennes kompetanse oppdraget skal løses med, og det er da også den som er relevant å måle.

Dersom selskapet har skrevet besvarelsen, kan det forsvares så lenge dette er kompetanse som faktisk vil bli brukt i oppdraget – fordi konsulenten bygger videre på selskapets metodikk, fagmiljø eller kvalitetssystem. Da er ikke selskapets bidrag bare en tilbudsskriving; det er en del av leveransen.

Men dersom besvarelsen kun viser kompetansen til en intern fagperson eller tilbudsskriver som ikke vil være involvert i oppdraget, og hvis kunnskapen ikke kan brukes av konsulenten som skal levere – da blir koblingen til den tilbudte ytelsen tynn.

Selskapets kompetanse, isolert sett, hører i utgangspunktet hjemme som kvalifikasjonskrav – ikke som tildelingskriterium. Tildelingskriteriet skal måle den ytelsen konkurransen gjelder. Hvis kompetansen som vises i besvarelsen ikke gir seg utslag i kvaliteten på leveransen tilbyderen er bedt om å gi pris og vilkår på, øker risikoen for at kriteriet i realiteten måler leverandørens generelle kvalifikasjoner, og ikke kvaliteten på den tilbudte ytelsen.

Dette er ikke nytt. Det er en gammel grense mellom kvalifikasjonsfasen og evalueringsfasen, og den har stått fast i praksis i mange år. Det nye er at grensen settes på prøve hver gang noen skriver en flott besvarelse uten at det er konsulenten selv som har gjort det.

Den nye varianten: AI har skrevet det

Frem til nå har spørsmålet «hvem skrev besvarelsen?» typisk handlet om en intern tilbudsavdeling eller en erfaren kollega.

Nå handler det om en språkmodell.

De fleste tilbyderne bruker i dag AI til å formulere oppgaveforståelse, helt eller delvis. Konsulenten gir noen stikkord, kunden sender konkurransegrunnlaget, og en velvalgt prompt produserer en velskrevet, strukturert og fagrelevant tekst på minutter.

Det er to ting som skjer samtidig:

For det første blir det vanskeligere å vite hvilken kompetanse besvarelsen faktisk viser. Det kan fortsatt være leverandørens kompetanse som ligger bak – i form av prompt, struktur, fagvalg og kvalitetssikring – men det kan også være lite eller ingenting. Teksten alene gir ikke lenger evaluatoren et godt grunnlag for å skille det ene fra det andre.

For det andre blir besvarelsene likere. Når mange bruker omtrent samme generasjon språkmodeller, og når disse er trent på i hovedsak det samme materialet, vil resultatene konvergere. Strukturen blir lik. Begrepsbruken blir lik. Dybden blir overflatisk på samme måte.

Det er ikke nødvendigvis dårlig kvalitet. Det er bare ikke noe som skiller den ene leverandøren fra den andre.

Konsekvensen: kriteriet mister sin funksjon

Et tildelingskriterium har én jobb: å skille mellom tilbudene på en måte som er relevant for hva man skal kjøpe. Hvis kriteriet ikke lenger skiller, gjør det ikke jobben sin.

Når besvarelsene blir nær uniforme i form og innhold, må evaluatoren enten:

gi alle omtrent samme score, slik at kvaliteten i praksis vurderes likt – og prisen avgjør, eller
finne marginale forskjeller å feste evalueringen til, og bygge en differensiering på detaljer som ikke nødvendigvis sier noe om hvem som er best egnet til oppdraget.

Begge utfallene er problematiske. Det første gjør tildelingskriteriet pro forma. Det andre gjør evalueringen vilkårlig og sårbar for klage.

I tillegg kommer det rettslige sporet vi var inne på: når koblingen mellom besvarelsen og den faktiske leveransen blir svakere, beveger evalueringen seg gradvis fra å måle den tilbudte ytelsens kvalitet til å måle noe annet – ofte leverandørens generelle profesjonalitet. Det er da ikke lenger et tildelingskriterium som virker etter sitt formål.

En vei tilbake: intervjuet – men det må dokumenteres

Hvis kompetanse fortsatt skal være avgjørende ved tildeling, må den vurderes der den faktisk finnes – hos personen som skal utføre oppdraget.

Det er en gammel praksis å kalle inn de tilbudte konsulentene til intervju som del av evalueringen. Det er fortsatt fullt mulig innenfor regelverket, så lenge det varsles på forhånd, gjøres etter forhåndsdefinerte og dokumenterbare kriterier, og alle relevante tilbydere får samme behandling.

I et intervju er det vanskeligere å skjule seg bak en velformet tekst. Forståelse for oppdraget, evne til å resonnere rundt usikkerhet, vurderinger av risiko og prioritering – dette kommer frem i samtalen, ikke i prosaen. Og det er nettopp dette tildelingskriteriet hele tiden har sagt at det skulle måle.

Men intervjuformen har én iboende svakhet: den er muntlig. Det stiller skjerpede krav til etterprøvbarhet. Skal intervjuet kunne brukes som grunnlag for tildeling, må det:

bygge på forhåndsdefinerte spørsmål eller temaer som er felles for alle tilbydere,
protokollføres underveis, helst med flere evaluatorer til stede,
scores etter en forhåndsoppgitt skala med dokumenterte begrunnelser per delvurdering, og
kunne gjenfortelles i en begrunnelse som tåler innsyn og klage.

Uten denne dokumentasjonen flyttes problemet bare videre: fra en tekst der man ikke vet hvem som skrev den, til en samtale der man ikke vet hvordan den ble vurdert.

Intervjuet er heller ikke uten kostnad. Det krever forberedelse, struktur, og at oppdragsgiver gjør et reelt arbeid med å vurdere det som faktisk sies – og deretter skrive det ned. Men kostnaden ved å fortsette å score AI-pregede oppgaveforståelser mot hverandre er sannsynligvis høyere – både i form av dårligere tildelinger og økt risiko for klager.

Do

Bestem hva oppgaveforståelse skal måle. Kompetanse eller løsningsmetode – ikke begge deler ubevisst.
Sjekk at det du måler, er det leveransen vil avhenge av. Generell selskapskompetanse hører som hovedregel hjemme som kvalifikasjonskrav når den ikke brukes i oppdraget.
Vurder intervju med tilbudt konsulent der kompetanse er det reelle vurderingstemaet – og protokollfør det.
Definer felles spørsmål, skala og begrunnelseskrav før intervjuene starter, slik at evalueringen kan etterprøves.
Vær realistisk om AI-bruk, og still krav som fortsatt skiller meningsfullt når besvarelsene blir likere.

Don't

Ikke bruk oppgaveforståelse som et generelt «kvalitetskriterium» uten å være tydelig på hva det måler.
Ikke score løsningsmetode tungt med mindre du er forberedt på at metoden langt på vei kontraktsfestes.
Ikke anta uten videre at leverandørens tilbudstekst gjenspeiler konsulentens reelle kompetanse i 2026.
Ikke gjennomfør intervju uten protokoll, felles spørsmålsstruktur og dokumentert poenggivning.

Læringspunktet

Oppgaveforståelse var et godt kriterium i en tid hvor besvarelsen i hovedsak ble skrevet av den som skulle gjøre jobben. Den tiden er på vei ut. Når AI brukes i stor skala, har kriteriet to mulige fremtider: enten en symbolsk rolle der prisen i praksis avgjør, eller en revitalisering der vurderingen flyttes dit kompetansen virkelig sitter – over bordet, i en samtale som er forberedt og dokumentert godt nok til at den tåler etterprøving.

Det vanskeligste valget er ikke å bytte verktøy. Det er å være ærlig om hva man egentlig vil måle – og å dokumentere vurderingen slik at den kan forklares i ettertid.