Das Stable Diffusion Model ist ein tiefes Lernmodell, das 2022 veröffentlicht wurde und auf Diffusions-Techniken basiert. Es ist ein wichtiger Teil des aktuellen KI-Booms und wird hauptsächlich verwendet, um detaillierte Bilder auf Basis von Textbeschreibungen zu generieren.
Das Stable Diffusion Model wurde von Forschern der CompVis-Gruppe an der Ludwig-Maximilians-Universität München und Runway entwickelt, mit einer computergestützten Spende von Stability AI und Trainingsdaten von Non-Profit-Organisationen. Die Entwicklung des Modells involvierte auch die Open-Sourcing des Codes und der Modellgewichte, was es ermöglicht, das Modell auf der meisten Consumer-Hardware mit einer moderaten GPU auszuführen.
Das Stable Diffusion Model verwendet eine Art von Diffusionsmodell, genannt Latent Diffusionsmodell (LDM), das von der CompVis-Gruppe an der LMU München entwickelt wurde. Das Modell besteht aus drei Teilen: einem Variational Autoencoder (VAE), einem U-Net und einem optionalen Text-Encoder. Der VAE-Encoder komprimiert das Bild von Pixel-Raum in einen kleineren latenten Raum, der eine fundamentalere semantische Bedeutung des Bildes erfasst.
Das Stable Diffusion Model kann verwendet werden, um Bilder auf Basis von Textbeschreibungen zu generieren, aber auch für andere Aufgaben wie Inpainting, Outpainting und die Generierung von Bild-zu-Bild-Übersetzungen, die durch einen Text-Prompt geleitet werden.
Das Stable Diffusion Model ist in verschiedenen Versionen verfügbar, darunter SD XL und SD 3.0. Die neueste Version, SD 3.0, bietet verbesserte Leistung bei Multi-Subjekt-Prompts, Bildqualität und Rechtschreibfähigkeiten.
Das Stable Diffusion Model ist unter der Creative ML OpenRAIL-M-Lizenz verfügbar, die es ermöglicht, das Modell zu verwenden, zu ändern und zu verteilen.
AWS bietet Unterstützung für das Stable Diffusion Model durch seine Machine-Learning-Dienste, die es ermöglichen, das Modell auf der AWS-Cloud auszuführen und zu skalieren.
Das Stable Diffusion Model ist ein leistungsfähiges tiefes Lernmodell, das auf Diffusions-Techniken basiert und verwendet werden kann, um detaillierte Bilder auf Basis von Textbeschreibungen zu generieren. Es ist unter einer permissiven Lizenz verfügbar und kann auf der meisten Consumer-Hardware ausgeführt werden.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.