Whisper ist ein neuronales Netzwerk, das für die automatische Spracherkennung (ASR) trainiert wurde. Es erreicht eine Robustheit und Genauigkeit, die nahe an die menschliche Leistung heranreicht. Whisper wurde auf 680.000 Stunden multilingualer und multitask-gesteuerter Daten aus dem Web trainiert, was zu einer verbesserten Robustheit gegenüber Akzenten, Hintergrundgeräuschen und Fachsprache führt.
Whisper verwendet eine einfache End-to-End-Ansatz, implementiert als Encoder-Decoder-Transformer. Eingabedaten werden in 30-Sekunden-Blöcke aufgeteilt, in ein Log-Mel-Spektrogramm konvertiert und dann in einen Encoder eingegeben. Ein Decoder wird trainiert, um den entsprechenden Text zu predizieren, der mit speziellen Token intermingliert ist, die das Modell anweisen, Aufgaben wie Spracherkennung, Phrasen-zeitstempel, multilinguale Sprachtranskription und Übersetzung in Englisch auszuführen.
Whisper erreicht eine hohe Genauigkeit und Robustheit, insbesondere bei der Verarbeitung von Audiodaten mit verschiedenen Akzenten und Hintergrundgeräuschen. Es kann auch verwendet werden, um Sprachübersetzungen in Echtzeit durchzuführen.
Whisper ist als Open-Source-Modell verfügbar und kann über die Azure OpenAI Service oder Azure KI Speech verwendet werden. Es gibt fünf verschiedene Modelle mit unterschiedlichen Größen und Leistungen, die je nach Anforderung ausgewählt werden können.
Whisper kann in verschiedenen Anwendungsbereichen eingesetzt werden, wie z.B.:
Whisper unterscheidet sich von anderen Spracherkennungsmodellen durch seine hohe Robustheit und Genauigkeit, insbesondere bei der Verarbeitung von Audiodaten mit verschiedenen Akzenten und Hintergrundgeräuschen. Es kann auch verwendet werden, um Sprachübersetzungen in Echtzeit durchzuführen.
Whisper ist ein leistungsfähiges Spracherkennungsmodell, das eine hohe Genauigkeit und Robustheit erreicht. Es kann in verschiedenen Anwendungsbereichen eingesetzt werden und ist als Open-Source-Modell verfügbar.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.