Hva får man?
Voice-Pro pakker mye stemme-AI inn i én Gradio-app:
- Whisper, Faster-Whisper, Whisper-Timestamped og WhisperX for transkribering
- Edge-TTS, F5-TTS, E2-TTS, CosyVoice og kokoro for talesyntese
- Zero-shot voice cloning
- Demucs for å skille tale fra bakgrunnsstøy
- yt-dlp for å hente lyd direkte fra YouTube
- Oversetting til over 100 språk og automatisk teksting
Hvorfor det er interessant
Stacken er moden, men oppstykket. De fleste team som vil løse «transkriber, oversett, dubb», ender opp med å lime sammen tre eller fire biblioteker selv. Voice-Pro løser hele kjeden i ett grensesnitt, kjørbart lokalt på Python 3.10 og Torch.
For ad hoc-analyse av lydopptak fra møter eller kundeintervjuer, eller for interne dubb-prosesser uten å sende opptak til en tredjepart, er det godt nok som det står.
Hva man bør være oppmerksom på
Lisensen er GPL-3.0. Brukes Voice-Pro som bibliotek inn i et eget produkt, smitter lisensen til hele applikasjonen. For internt bruk og prototyping er det helt greit; for noe som skal selges videre må komponenten enten holdes isolert, eller byttes ut.
Modellene er heller ikke alltid de nyeste. Whisper er solid, men kommersielle leverandører som AssemblyAI og Deepgram ligger fortsatt foran på norsk i sanntid.