SpaCy ist eine Bibliothek für fortschrittliche natürliche Sprachverarbeitung in Python und Cython. Sie wurde von Grund auf für die Verwendung in realen Produkten konzipiert und bietet eine Vielzahl von Funktionen für die Verarbeitung natürlicher Sprache.
Merkmale
- Unterstützung für 75+ Sprachen
- 84 trainierte Pipelines für 25 Sprachen
- Multi-Task-Lernen mit vortrainierten Transformern wie BERT
- Vortrainierte Wortvektoren
- State-of-the-Art-Geschwindigkeit
- Produktionsreife Trainings-System
- Linguistisch motivierte Tokenisierung
- Komponenten für Named Entity Recognition, Part-of-Speech-Tagging, Abhängigkeitsanalyse, Satzsegmentierung, Textklassifizierung, Lemmatisierung, morphologische Analyse, Entity-Linking und mehr
- Einfach erweiterbar mit benutzerdefinierten Komponenten und Attributen
- Unterstützung für benutzerdefinierte Modelle in PyTorch, TensorFlow und anderen Frameworks
- Eingebaute Visualisierungen für Syntax und Named Entities
- Einfache Modellverpackung, -bereitstellung und -workflow-Verwaltung
- Robuste, sorgfältig evaluierte Genauigkeit
Geschichte
SpaCy wurde 2015 von Matthew Honnibal und Ines Montani, den Gründern von Explosion, entwickelt. Die Bibliothek wird unter der MIT-Lizenz veröffentlicht und ist auf GitHub verfügbar.
Versionen
- Version 1.0: Veröffentlicht am 19. Oktober 2016, mit Unterstützung für Deep-Learning-Workflows und einer dokumentierten Trainings-API.
- Version 2.0: Veröffentlicht am 7. November 2017, mit convolutional neural network-Modellen für 7 Sprachen und Unterstützung für benutzerdefinierte Verarbeitungspipelines.
- Version 3.0: Veröffentlicht am 1. Februar 2021, mit state-of-the-art-Transformer-basierten Pipelines, einem neuen Konfigurationssystem und Trainings-Workflow, sowie Typ-Hinweisen und Projekt-Vorlagen.
Erweiterungen und Visualisierungen
SpaCy bietet mehrere Erweiterungen und Visualisierungen, die als kostenlose, open-source-Bibliotheken verfügbar sind:
- Thinc: Eine Machine-Learning-Bibliothek, die für CPU-Nutzung und Deep-Learning mit Texteingabe optimiert ist.
- sense2vec: Eine Bibliothek für die Berechnung von Wortähnlichkeiten, basierend auf Word2vec.
- displaCy: Ein open-source-Abhängigkeitsanalyse-Visualisierer, der mit JavaScript, CSS und SVG erstellt wurde.
- displaCyENT: Ein open-source-Named-Entity-Visualisierer.
Weitere Informationen
Weitere Informationen zu SpaCy finden Sie auf der offiziellen Website spacy.io oder auf GitHub github.com/explosion/spaCy.