Floyd

Zusammenfassung mit KI ⊛

Floyd ist ein Open-Source-Text-to-Image-Modell, das von DeepFloyd Lab at StabilityAI entwickelt wurde. Es handelt sich um ein modulares Modell, das aus einem gefrorenen Text-Encoder und drei kaskadierten Pixel-Diffusions-Modulen besteht.

Architektur

Das Modell besteht aus drei Stufen:

Einem Basis-Modell, das ein 64x64-Bild basierend auf einem Text-Prompt generiert.
Zwei Super-Auflösungs-Modellen, die Bilder mit einer Auflösung von 256x256 und 1024x1024 generieren.

Alle Stufen des Modells verwenden einen gefrorenen Text-Encoder basierend auf dem T5-Transformer, um Text-Embeddings zu extrahieren, die dann in eine UNet-Architektur mit Cross-Attention und Attention-Pooling eingespeist werden.

Leistung

Das Modell erreicht eine Zero-Shot-FID-Score von 6,66 auf dem COCO-Datensatz, was es zu einem der leistungsfähigsten Text-to-Image-Modelle macht.

Anforderungen

Um alle IF-Modelle zu verwenden, sind mindestens 16 GB vRAM erforderlich. Für die Verwendung von IF-I-XL und IF-II-L sind 24 GB vRAM erforderlich.

Integration mit Diffusers

IF ist auch mit der Hugging Face Diffusers-Bibliothek integriert, die es ermöglicht, jeden Schritt des Bildgenerierungsprozesses individuell anzupassen und Zwischenergebnisse leicht zu inspizieren.

Lizenz

Bevor Sie IF verwenden können, müssen Sie die Nutzungsbedingungen akzeptieren. Dazu müssen Sie ein Hugging Face-Konto haben und sich anmelden, um die Lizenz auf der Modellkarte von DeepFloyd/IF-I-XL-v1.0 zu akzeptieren.

Weitere Informationen

Weitere Informationen zu Floyd finden Sie auf der GitHub-Seite von DeepFloyd und auf der Hugging Face-Plattform, wo Sie auch die verschiedenen Modelle und Notebooks finden können.

Architektur

Leistung

Anforderungen

Integration mit Diffusers

Lizenz

Weitere Informationen

Ähnliche KI-Apps

Spark MLib

Chainer

Coach

StackML