Die Einzelbild-Superauflösung ist die Aufgabe, ein hochauflösendes Bild aus einem einzelnen niedrigauflösenden Eingabebild zu inferieren. Traditionell wird die Leistung von Algorithmen für diese Aufgabe anhand pixelweiser Rekonstruktionsmaße wie dem Peak-Signal-Rausch-Verhältnis (PSNR) gemessen, die jedoch bekanntermaßen schlecht mit der menschlichen Wahrnehmung der Bildqualität korrelieren. Als Ergebnis produzieren Algorithmen, die diese Metriken minimieren, oft überglättete Bilder, die an hochfrequenten Texturen fehlen und nicht natürlich aussehen, trotz hoher PSNR-Werte.
Wir schlagen einen neuen Ansatz vor, der die automatisierte Texturensynthese in Kombination mit einem wahrnehmungsorientierten Verlustfunktion verwendet, um realistische Texturen zu erzeugen, anstatt eine pixelgenaue Reproduktion von Ground-Truth-Bildern während des Trainings zu optimieren. Durch die Verwendung von feed-forward, vollständig konvolutionellen neuronalen Netzen in einem adversarialen Trainingssetting erreichen wir einen signifikanten Anstieg der Bildqualität bei hohen Vergrößerungsverhältnissen.
Unsere umfassenden Experimente auf einer Vielzahl von Datensätzen zeigen die Wirksamkeit unseres Ansatzes, der state-of-the-art-Ergebnisse in beiden quantitativen und qualitativen Benchmarks liefert.
Wir hoffen, dass dieser Blogpost Ihnen einen Überblick über den EnhanceNet-Ansatz und seine Vorteile gegeben hat. Wenn Sie weitere Fragen haben, zögern Sie nicht, uns zu kontaktieren.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.