KI Apps

Floyd

Website
Screenshot der Startseite von Floyd
Zusammenfassung mit KI ⊛

Floyd ist ein Open-Source-Text-to-Image-Modell, das von DeepFloyd Lab at StabilityAI entwickelt wurde. Es handelt sich um ein modulares Modell, das aus einem gefrorenen Text-Encoder und drei kaskadierten Pixel-Diffusions-Modulen besteht.

Architektur


Das Modell besteht aus drei Stufen:

  1. Einem Basis-Modell, das ein 64x64-Bild basierend auf einem Text-Prompt generiert.
  2. Zwei Super-Auflösungs-Modellen, die Bilder mit einer Auflösung von 256x256 und 1024x1024 generieren.

Alle Stufen des Modells verwenden einen gefrorenen Text-Encoder basierend auf dem T5-Transformer, um Text-Embeddings zu extrahieren, die dann in eine UNet-Architektur mit Cross-Attention und Attention-Pooling eingespeist werden.

Leistung


Das Modell erreicht eine Zero-Shot-FID-Score von 6,66 auf dem COCO-Datensatz, was es zu einem der leistungsfähigsten Text-to-Image-Modelle macht.

Anforderungen


Um alle IF-Modelle zu verwenden, sind mindestens 16 GB vRAM erforderlich. Für die Verwendung von IF-I-XL und IF-II-L sind 24 GB vRAM erforderlich.

Integration mit Diffusers


IF ist auch mit der Hugging Face Diffusers-Bibliothek integriert, die es ermöglicht, jeden Schritt des Bildgenerierungsprozesses individuell anzupassen und Zwischenergebnisse leicht zu inspizieren.

Lizenz


Bevor Sie IF verwenden können, müssen Sie die Nutzungsbedingungen akzeptieren. Dazu müssen Sie ein Hugging Face-Konto haben und sich anmelden, um die Lizenz auf der Modellkarte von DeepFloyd/IF-I-XL-v1.0 zu akzeptieren.

Weitere Informationen


Weitere Informationen zu Floyd finden Sie auf der GitHub-Seite von DeepFloyd und auf der Hugging Face-Plattform, wo Sie auch die verschiedenen Modelle und Notebooks finden können.

Ähnliche KI-Apps

* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.