Continual Diffusion ist ein Ansatz, der es ermöglicht, Text-to-Image-Diffusionsmodelle kontinuierlich anzupassen, indem sie auf mehrere, fein granulierte Konzepte in einer sequentiellen Weise trainiert werden. Dieser Ansatz hat das Potenzial, in einer Vielzahl von Anwendungen eingesetzt zu werden, insbesondere in denen, die eine kontinuierliche Anpassung an neue Konzepte erfordern.
Die kontinuierliche Anpassung von Text-to-Image-Diffusionsmodellen an neue Konzepte ist ein schwieriges Problem, da die Modelle dazu neigen, vergesslich zu werden, wenn neue Konzepte hinzugefügt werden. Dieses Phänomen wird als "catastrophic forgetting" bezeichnet. Um dieses Problem zu lösen, wurden verschiedene Ansätze entwickelt, wie z.B. die Verwendung von Low-Rank-Adaptation (LoRA) und Stack-And-Mask-Incremental-Adapters (STAMINA).
LoRA ist ein Ansatz, der eine kontinuierliche Anpassung von Text-to-Image-Diffusionsmodellen ermöglicht, indem er eine Low-Rank-Adaptation in den Kreuz-Aufmerksamkeitsschichten des Modells durchführt. Dieser Ansatz induziert nur marginale zusätzliche Parameterkosten und erfordert keine Speicherung von Benutzerdaten für die Wiederholung.
STAMINA ist ein Ansatz, der die Robustheit der Feinanpassung von LoRA für sequentielle Konzeptlernen verbessert, indem er learnbare Hard-Aufmerksamkeitsmasken mit niedrigem Rang-MLPs verwendet. Dieser Ansatz ermöglicht eine präzise und skalierbare Lernung via sparse Anpassung.
Die experimentellen Ergebnisse zeigen, dass LoRA und STAMINA die Leistung von Text-to-Image-Diffusionsmodellen in kontinuierlichen Lernszenarien verbessern können. Insbesondere zeigen die Ergebnisse, dass STAMINA die beste Leistung in einem 50-Konzept-Benchmark erreicht, der aus Landmarken und menschlichen Gesichtern besteht.
Die Implementierung von Continual Diffusion wurde in PyTorch durchgeführt und ist auf GitHub verfügbar. Die Implementierung umfasst eine Reihe von Skripten und Konfigurationsdateien, die es ermöglichen, die Experimente zu replizieren.
Continual Diffusion ist ein vielversprechender Ansatz, der es ermöglicht, Text-to-Image-Diffusionsmodelle kontinuierlich anzupassen, indem sie auf mehrere, fein granulierte Konzepte in einer sequentiellen Weise trainiert werden. Die experimentellen Ergebnisse zeigen, dass LoRA und STAMINA die Leistung von Text-to-Image-Diffusionsmodellen in kontinuierlichen Lernszenarien verbessern können.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.