de en

Whisper v3 large Automatic Speech Recognition (ASR) für JAVA

Für einen internen Produktprototyp haben wir OpenAIs Whisper 3 Modell von Huggingface getraced und per DJL unter JAVA nutzbar gemacht.

Wir dachten uns, dass dies auch für andere JAVA Entwickler interessant sein könnte - so kann man z.B. Whisper v3 in Spring nutzen. Die aktuelle Version funktioniert nur mit einer GPU, wir hoffen aber bald eine Version anzubieten, die sowohl unter GPU als auch CPU lauffähig ist.

Whisper 3 ist ein Deep Learning Model zur Transkription von Sprache nach Text, auch bekannt als Automatic Speech Recognition (ASR) oder Speech-To-Text (STT). Whisper 3 beherrscht fast 100 verschiedene Sprachen und kann sogar on-the-fly übersetzen.

Das Repository mit Installationsanweisungen und einem Beispiel findet Ihr hier: https://github.com/DIVISIO-AI/whisper-java