Hva leaderboardet faktisk tester
Rangeringen samler over tjue oppgavetyper fordelt på kategorier som lesing, resonnement, oppsummering, oversettelse, sikkerhet og faktatroskap. Mange av oppgavene er laget for norsk fra bunnen av, ikke maskinoversatt fra engelsk. Det skiller den fra de fleste internasjonale benchmarks, der norsk i beste fall er en oversatt fotnote.
En egen styrke er at oppgavene finnes på både bokmål og nynorsk, og at nordsamisk er med i et eget sett. Det gir et mer realistisk bilde av hvordan en modell håndterer norsk språkvirkelighet.
Hvorfor metoden betyr noe
Du kan selv velge hvordan modellene rangeres: Borda count eller gjennomsnitt av normaliserte skårer, med ulike strategier for manglende resultater. Rangeringene regnes om når du filtrerer hvilke modeller som er med. En vinner avhenger altså av hvilke oppgaver og modeller du ser på, ikke av ett enkelt tall.
Relevans for norske virksomheter
For en norsk virksomhet er engelske benchmarktall lite verdt hvis modellen skal svare kunder på nynorsk eller oppsummere norske dokumenter. Et åpent, norsk-spesifikt grunnlag gjør det mulig å velge modell på faktisk norsk ytelse i stedet for markedsføring.