Das Julius Speech Recognition System ist ein Open-Source-Large-Vocabulary-Continuous-Speech-Recognition-Engine (LVCSR) für Forscher und Entwickler im Bereich der Spracherkennung. Es basiert auf Wort-N-Gramm und kontextabhängigen Hidden-Markov-Modellen (HMM) und kann Echtzeit-Decodierung auf verschiedenen Computern und Geräten von Mikrocomputern bis hin zu Cloud-Servern durchführen.
Das Julius-Projekt wurde 1991 am Kawahara Lab der Kyoto University initiiert und wird seit 2005 vom Julius-Projektteam am Lee Lab der Nagoya Institute of Technology weiterentwickelt. Das System ist unter der BSD-Lizenz veröffentlicht und wird auf GitHub gehostet.
Das Julius-System unterstützt verschiedene HMM-Strukturen, einschließlich geteilter Zustände und gemischter Modelle, mit beliebiger Anzahl von Mischungen, Zuständen oder Phonemen. Es kann auch mehrere Instanzen von Erkennung gleichzeitig in einem einzigen Thread ausführen, einschließlich Diktat, Grammatik-basierter Erkennung oder isolierter Worterkennung.
Das System unterstützt auch Deep Neural Network (DNN)-basierte Echtzeit-Decodierung und kann auf verschiedenen Plattformen wie Linux, Windows, Mac, Android und anderen laufen.
Das Julius-System benötigt ein Sprachmodell und ein akustisches Modell für jede Sprache. Es unterstützt akustische Modelle im Hidden Markov Model Toolkit (HTK) ASCII-Format, Aussprachewörterbücher im HTK-ähnlichen Format und Wort-3-Gramm-Sprachmodelle im ARPA-Standardformat.
Das Julius-System ist kostenlos und open-source verfügbar und wird auf GitHub gehostet. Es gibt auch eine offizielle Website mit Dokumentation und Downloads.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.