PocketSphinx ist ein Open-Source-Spracherkennungstoolkit, das von der Carnegie Mellon University entwickelt wurde. Es handelt sich um ein großvokabulares, sprecherunabhängiges kontinuierliches Spracherkennungssystem.
PocketSphinx kann über pip installiert werden:
pip3 install pocketsphinx
Alternativ kann es auch aus dem Quellcode kompiliert werden. Es wird empfohlen, dies in einer virtuellen Umgebung durchzuführen.
PocketSphinx bietet eine Vielzahl von Optionen und Einstellungen, um die Spracherkennung anzupassen. Es gibt Beispiele für die Verwendung des Tools in der examples
-Verzeichnis. Die Dokumentation für die Python-API und die C-API sind auch verfügbar.
Die LiveSpeech
-Klasse ermöglicht die kontinuierliche Spracherkennung oder die Schlüsselwort-Suche von einem Mikrofon. Ein Beispiel für die Verwendung dieser Klasse ist:
from pocketsphinx import LiveSpeech
for phrase in LiveSpeech(): print(phrase)
Die AudioFile
-Klasse ermöglicht die kontinuierliche Spracherkennung oder die Schlüsselwort-Suche von einer Datei. Ein Beispiel für die Verwendung dieser Klasse ist:
from pocketsphinx import AudioFile
for phrase in AudioFile("goforward.raw"): print(phrase)
PocketSphinx wird unter der BSD-Lizenz veröffentlicht. Die vollständigen Lizenzbedingungen sind in der LICENSE
-Datei zu finden.
Weitere Informationen zu PocketSphinx, einschließlich der Dokumentation und der Verwendung, sind auf der offiziellen Website und auf GitHub verfügbar.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.