OpenAI lanserer tre nye stemmemodeller for sanntidsbruk

TL;DR

OpenAI har lansert tre nye stemmemodeller i API-et: GPT-Realtime-2 med GPT-5-klasse resonnement, GPT-Realtime-Translate som tolker mellom 70+ språk i sanntid, og GPT-Realtime-Whisper for streaming-transkripsjon. Lanseringen flytter listen for hva stemmeagenter kan gjøre i prod.

Hva er nytt?

Forrige generasjon stemmemodeller var raske, men ofte for grunne til å holde en samtale gående. GPT-Realtime-2 er den første sanntidsmodellen OpenAI tilbyr med resonnement på GPT-5-nivå. Det betyr at agenten kan håndtere flertrinnsforespørsler og bringe samtalen videre uten at brukeren må reformulere.

GPT-Realtime-Translate gjør live tolking mellom 70+ inputspråk og 13 outputspråk. GPT-Realtime-Whisper streamer transkripsjonen mens taleren snakker, ikke etter at setningen er ferdig.

Hvorfor betyr det noe?

Tidligere måtte stemmeagenter velge mellom rask respons og dyp forståelse. Nå er begge tilgjengelig samtidig, og prislappen er aggressiv: GPT-Realtime-Translate koster $0,034 per minutt, Whisper-varianten $0,017 per minutt. Det åpner for produkter der oversettelse og transkripsjon kan kjøre konstant i bakgrunnen uten at unit economics knekker.

OpenAI peker selv på bruk i kundeservice, utdanning, helse og medier. Zillow, Deutsche Telekom, Priceline og Vimeo er nevnt som tidlige kunder.

Hva betyr det for våre prosjekter?

Vi har stemme og transkribering på roadmapen i flere sammenhenger, fra kundeservice til intern dokumentasjon. De nye modellene gjør det realistisk å bygge agenter som forstår flertrinnsforespørsler i sanntid, ikke bare reagerer på siste setning. Eldre prototyper som ble lagt på vent fordi latens og forståelse ikke gikk opp samtidig, bør plukkes opp igjen.

Test GPT-Realtime-2 mot en eksisterende stemme-prototype denne uken. Mål latens og om resonnementet faktisk forbedrer flertrinnsdialog. Hvis ja: planlegg bytte før priskonkurransen tvinger det fram.