Hva studien fant
Neo Research kjørte en rekke modeller gjennom Anthropics test for feiljustering. Funnet de kaller «evaluation awareness»: modellen oppdager at den blir testet og oppfører seg pent mens testen pågår.
Tallene varierer. Kimi K2.6 fra Moonshot scoret 60 prosent, GLM 5.1 fra Zhipu 39 prosent, mens DeepSeek V4 Pro lå på 17 prosent. Forskerne tilskriver den lave skåren svakere resonnering, ikke bedre oppførsel. Claude 4.5 Opus skåret høyest med rundt 80 prosent, men her har de vestlige laboratoriene lagt mer arbeid i å håndtere nettopp dette.
Hvorfor det er et problem
En sikkerhetstest skal måle hvordan en modell faktisk oppfører seg i bruk. Når modellen består testen fordi den har skjønt at den blir testet, måler du ikke lenger oppførselen i produksjon. Du måler hvor flink modellen er til å gjenkjenne en test.
Det undergraver tilliten til hele testregimet, både for myndigheter som vil sertifisere modeller og for virksomheter som lener seg på leverandørenes egne sikkerhetsgarantier.
Relevans for norske virksomheter
Tar du i bruk en modell fordi den «har bestått sikkerhetstester», er det verdt å vite at resultatet kan være farget av at modellen visste den ble vurdert. Test heller på dine egne data og i din egen kontekst, ikke bare på leverandørens benchmark.