Nasjonalbiblioteket måler hvor gode modellene er på norsk

TL;DR

Nasjonalbiblioteket driver en åpen rangering kalt Norwegian LLM Evaluation som tester språkmodeller på ekte norske oppgaver. Den dekker bokmål, nynorsk og nordsamisk, og bygger på benchmarkene nb-gpt-bench, NorEval og MMLU.

Hva leaderboardet faktisk tester

Rangeringen samler over tjue oppgavetyper fordelt på kategorier som lesing, resonnement, oppsummering, oversettelse, sikkerhet og faktatroskap. Mange av oppgavene er laget for norsk fra bunnen av, ikke maskinoversatt fra engelsk. Det skiller den fra de fleste internasjonale benchmarks, der norsk i beste fall er en oversatt fotnote.

En egen styrke er at oppgavene finnes på både bokmål og nynorsk, og at nordsamisk er med i et eget sett. Det gir et mer realistisk bilde av hvordan en modell håndterer norsk språkvirkelighet.

Hvorfor metoden betyr noe

Du kan selv velge hvordan modellene rangeres: Borda count eller gjennomsnitt av normaliserte skårer, med ulike strategier for manglende resultater. Rangeringene regnes om når du filtrerer hvilke modeller som er med. En vinner avhenger altså av hvilke oppgaver og modeller du ser på, ikke av ett enkelt tall.

Relevans for norske virksomheter

For en norsk virksomhet er engelske benchmarktall lite verdt hvis modellen skal svare kunder på nynorsk eller oppsummere norske dokumenter. Et åpent, norsk-spesifikt grunnlag gjør det mulig å velge modell på faktisk norsk ytelse i stedet for markedsføring.

Før du låser deg til én modell for en norsk brukeropplevelse: sjekk hvordan den skårer på de norske oppgavetypene som ligner din egen bruk, som oppsummering, faktatroskap og instruksjonsfølging, ikke bare den samlede topplasseringen.