Floyd ist ein Open-Source-Text-to-Image-Modell, das von DeepFloyd Lab at StabilityAI entwickelt wurde. Es handelt sich um ein modulares Modell, das aus einem gefrorenen Text-Encoder und drei kaskadierten Pixel-Diffusions-Modulen besteht.
Das Modell besteht aus drei Stufen:
Alle Stufen des Modells verwenden einen gefrorenen Text-Encoder basierend auf dem T5-Transformer, um Text-Embeddings zu extrahieren, die dann in eine UNet-Architektur mit Cross-Attention und Attention-Pooling eingespeist werden.
Das Modell erreicht eine Zero-Shot-FID-Score von 6,66 auf dem COCO-Datensatz, was es zu einem der leistungsfähigsten Text-to-Image-Modelle macht.
Um alle IF-Modelle zu verwenden, sind mindestens 16 GB vRAM erforderlich. Für die Verwendung von IF-I-XL und IF-II-L sind 24 GB vRAM erforderlich.
IF ist auch mit der Hugging Face Diffusers-Bibliothek integriert, die es ermöglicht, jeden Schritt des Bildgenerierungsprozesses individuell anzupassen und Zwischenergebnisse leicht zu inspizieren.
Bevor Sie IF verwenden können, müssen Sie die Nutzungsbedingungen akzeptieren. Dazu müssen Sie ein Hugging Face-Konto haben und sich anmelden, um die Lizenz auf der Modellkarte von DeepFloyd/IF-I-XL-v1.0 zu akzeptieren.
Weitere Informationen zu Floyd finden Sie auf der GitHub-Seite von DeepFloyd und auf der Hugging Face-Plattform, wo Sie auch die verschiedenen Modelle und Notebooks finden können.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.