- Neuer generativer Ansatz zur Bildvervollständigung, entwickelt von Google Research und der Cornell University
- RealFill zielt darauf ab, fehlende Teile eines Bildes mit dem Inhalt zu füllen, der ursprünglich dort sein sollte, um ein realistischeres Bild zu erzeugen
- Das Modell wird mithilfe einiger Referenzbilder personalisiert, die nicht exakt mit dem Zielbild übereinstimmen müssen und sich in Perspektive, Lichtverhältnissen, Kamera-Blende oder Bildstil unterscheiden können
- RealFill übertrifft bestehende Ansätze deutlich in einem neuen Benchmark zur Bildvervollständigung, der vielfältige und anspruchsvolle Szenarien abdeckt
- Der Prozess umfasst das Fine-Tuning eines vortrainierten Inpainting-Diffusionsmodells auf Referenz- und Zielbildern, wodurch Inhalt, Beleuchtung und Stil der Szene des Eingabebildes gelernt werden
- Das feinabgestimmte Modell wird anschließend verwendet, um die fehlenden Bereiche des Zielbildes durch den standardmäßigen Diffusions-Sampling-Prozess auszufüllen
- RealFill erzeugt hochwertige Bilder, die der ursprünglichen Szene treu bleiben und visuell ansprechend sind, selbst wenn es große Unterschiede zwischen Referenz- und Zielbild gibt
- Zu den Grenzen von RealFill gehören der relativ langsame gradientenbasierte Fine-Tuning-Prozess und Schwierigkeiten bei der Rekonstruktion von 3D-Szenen, wenn die Perspektivänderung zwischen Referenz- und Zielbild sehr groß ist
- RealFill hat auch bei anspruchsvollen Fällen Schwierigkeiten mit grundlegenden vortrainierten Modellen wie Stable Diffusion
1 Kommentare
Hacker-News-Kommentare