DreamPose ist ein diffusion-basiertes Verfahren zur Erzeugung animierter Fashion-Videos aus Stillbildern. Das Verfahren wurde von Johanna Karras, Aleksander Holynski, Ting-Chun Wang und Ira Kemelmacher-Shlizerman entwickelt.
DreamPose transformiert ein vortrainiertes Text-to-Image-Modell (Stable Diffusion) in ein pose- und bildgeführtes Video-Synthese-Modell. Dies geschieht durch eine neuartige Feinabstimmungsstrategie, architektonische Änderungen, um die konditionierten Signale zu unterstützen, und Techniken, um zeitliche Konsistenz zu fördern.
DreamPose wird auf einem Datensatz von Fashion-Videos aus dem UBC Fashion-Datensatz feinabgestimmt. Das Verfahren kann auf verschiedenen Kleidungsstilen und Posen angewendet werden und produziert state-of-the-art-Ergebnisse bei der Fashion-Video-Animation.
Die offizielle Implementierung von DreamPose ist auf GitHub verfügbar und enthält eine Anleitung zur Verwendung des Verfahrens. Die Implementierung umfasst ein Demo-Skript, das es ermöglicht, ein Video mit einem vortrainierten Modell zu generieren.
Um ein Sample für die Feinabstimmung vorzubereiten, muss ein Verzeichnis mit Unterordnern für die Train- und Test-frames erstellt werden. Die Test-frames müssen nicht denselben Subjekt wie die Train-frames haben. Anschließend muss das DensePose-Verfahren auf allen Bildern im Sample-Verzeichnis angewendet werden. Die resultierenden Daten müssen dann mit einem Skript reformattiert werden.
DreamPose kann auf einem eigenen Bild-Datensatz feinabgestimmt werden. Dazu muss ein vortrainiertes Stable-Diffusion-Modell heruntergeladen und auf dem eigenen Datensatz feinabgestimmt werden.
Die Implementierung von DreamPose ist unter der MIT-Lizenz verfügbar.
Weitere Informationen zu DreamPose sind auf der Projektseite und in der zugehörigen Forschungsarbeit verfügbar.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.