DALL·E: Bilder aus Text erzeugen
(openai.com)-
GPT-3 in einer Version mit 12 Milliarden Parametern
-
Mit einem Datensatz aus Text-Bild-Paaren darauf trainiert, aus Textbeschreibungen Bilder zu erzeugen
-
Zeigt vielfältige Fähigkeiten, etwa anthropomorphisierte Versionen von Tieren und Objekten zu erzeugen, nicht zusammenhängende Konzepte plausibel zu kombinieren, Text zu rendern oder bestehende Bilder zu verändern
→ Attributsteuerung: Form, Farbe, Material, Anzahl des Auftretens usw.
→ Gleichzeitiges Zeichnen mehrerer Objekte und Darstellung ihrer Beziehungen
→ Darstellung von Perspektive und 3D-Visualisierung
→ Darstellung innerer und äußerer Strukturen: das Innere einer Walnuss, Hirnkorallen usw.
→ Schlussfolgerung von situationsabhängigen Details: Darstellung durch Änderungen von Stil/Setting/Zeit, etwa passende Schatten je nach Situation
→ Mode- und Interior-Design
→ Kombination völlig unzusammenhängender Konzepte: eine aus einer Harfe gemachte Schnecke, ein avocadogeförmter Stuhl
→ Zero-shot Visual Reasoning
→ Bildgenerierung auf Basis geografischer/zeitlicher Informationen
- DALL·E modelliert Text mit 256 und Bilder mit 1024 Tokens als einen einzigen Stream autoregressiv mit einem einfachen Decoder-only Transformer
1 Kommentare
Wow, das ist enorm. Ich freue mich auf den Tag, an dem das im Alltag zum Einsatz kommt.