Voice-Pro samler Whisper, dubbing og voice cloning i én pakke

TL;DR

Voice-Pro er en åpen webapp som samler Whisper-transkribering, oversetting, voice cloning og text-to-speech i ett grensesnitt. Lisensiert under GPL-3.0 og kjørbar lokalt på en maskin med GPU.

Hva får man?

Voice-Pro pakker mye stemme-AI inn i én Gradio-app:

Whisper, Faster-Whisper, Whisper-Timestamped og WhisperX for transkribering
Edge-TTS, F5-TTS, E2-TTS, CosyVoice og kokoro for talesyntese
Zero-shot voice cloning
Demucs for å skille tale fra bakgrunnsstøy
yt-dlp for å hente lyd direkte fra YouTube
Oversetting til over 100 språk og automatisk teksting

Hvorfor det er interessant

Stacken er moden, men oppstykket. De fleste team som vil løse «transkriber, oversett, dubb», ender opp med å lime sammen tre eller fire biblioteker selv. Voice-Pro løser hele kjeden i ett grensesnitt, kjørbart lokalt på Python 3.10 og Torch.

For ad hoc-analyse av lydopptak fra møter eller kundeintervjuer, eller for interne dubb-prosesser uten å sende opptak til en tredjepart, er det godt nok som det står.

Hva man bør være oppmerksom på

Lisensen er GPL-3.0. Brukes Voice-Pro som bibliotek inn i et eget produkt, smitter lisensen til hele applikasjonen. For internt bruk og prototyping er det helt greit; for noe som skal selges videre må komponenten enten holdes isolert, eller byttes ut.

Modellene er heller ikke alltid de nyeste. Whisper er solid, men kommersielle leverandører som AssemblyAI og Deepgram ligger fortsatt foran på norsk i sanntid.

Trenger du en lokal pipeline for transkribering, dubbing eller voice cloning, last ned Voice-Pro og test den på dine egne lydfiler først. Det sparer mye limkode.