Julius Speech Recognition System

Zusammenfassung mit KI ⊛

Das Julius Speech Recognition System ist ein Open-Source-Large-Vocabulary-Continuous-Speech-Recognition-Engine (LVCSR) für Forscher und Entwickler im Bereich der Spracherkennung. Es basiert auf Wort-N-Gramm und kontextabhängigen Hidden-Markov-Modellen (HMM) und kann Echtzeit-Decodierung auf verschiedenen Computern und Geräten von Mikrocomputern bis hin zu Cloud-Servern durchführen.

Geschichte und Entwicklung

Das Julius-Projekt wurde 1991 am Kawahara Lab der Kyoto University initiiert und wird seit 2005 vom Julius-Projektteam am Lee Lab der Nagoya Institute of Technology weiterentwickelt. Das System ist unter der BSD-Lizenz veröffentlicht und wird auf GitHub gehostet.

Funktionen und Merkmale

Das Julius-System unterstützt verschiedene HMM-Strukturen, einschließlich geteilter Zustände und gemischter Modelle, mit beliebiger Anzahl von Mischungen, Zuständen oder Phonemen. Es kann auch mehrere Instanzen von Erkennung gleichzeitig in einem einzigen Thread ausführen, einschließlich Diktat, Grammatik-basierter Erkennung oder isolierter Worterkennung.

Das System unterstützt auch Deep Neural Network (DNN)-basierte Echtzeit-Decodierung und kann auf verschiedenen Plattformen wie Linux, Windows, Mac, Android und anderen laufen.

Modelle

Das Julius-System benötigt ein Sprachmodell und ein akustisches Modell für jede Sprache. Es unterstützt akustische Modelle im Hidden Markov Model Toolkit (HTK) ASCII-Format, Aussprachewörterbücher im HTK-ähnlichen Format und Wort-3-Gramm-Sprachmodelle im ARPA-Standardformat.

Verfügbarkeit

Das Julius-System ist kostenlos und open-source verfügbar und wird auf GitHub gehostet. Es gibt auch eine offizielle Website mit Dokumentation und Downloads.

Weblinks

Offizielle Website: julius.osdn.jp/en_index.php
GitHub-Repository: github.com/julius-speech/julius

Julius Speech Recognition System

Geschichte und Entwicklung

Funktionen und Merkmale

Modelle

Verfügbarkeit

Weblinks

Ähnliche KI-Apps

Open Speech Recognition Toolkit

Baidu Speech Recognition

PocketSphinx

Textless NLP