DALL·E: Bilder aus Text erzeugen

(openai.com)

10 Punkte von xguru 2021-01-07 | 1 Kommentare | Auf WhatsApp teilen

GPT-3 in einer Version mit 12 Milliarden Parametern
Mit einem Datensatz aus Text-Bild-Paaren darauf trainiert, aus Textbeschreibungen Bilder zu erzeugen
Zeigt vielfältige Fähigkeiten, etwa anthropomorphisierte Versionen von Tieren und Objekten zu erzeugen, nicht zusammenhängende Konzepte plausibel zu kombinieren, Text zu rendern oder bestehende Bilder zu verändern

→ Attributsteuerung: Form, Farbe, Material, Anzahl des Auftretens usw.

→ Gleichzeitiges Zeichnen mehrerer Objekte und Darstellung ihrer Beziehungen

→ Darstellung von Perspektive und 3D-Visualisierung

→ Darstellung innerer und äußerer Strukturen: das Innere einer Walnuss, Hirnkorallen usw.

→ Schlussfolgerung von situationsabhängigen Details: Darstellung durch Änderungen von Stil/Setting/Zeit, etwa passende Schatten je nach Situation

→ Mode- und Interior-Design

→ Kombination völlig unzusammenhängender Konzepte: eine aus einer Harfe gemachte Schnecke, ein avocadogeförmter Stuhl

→ Zero-shot Visual Reasoning

→ Bildgenerierung auf Basis geografischer/zeitlicher Informationen

DALL·E modelliert Text mit 256 und Bilder mit 1024 Tokens als einen einzigen Stream autoregressiv mit einem einfachen Decoder-only Transformer

1 Kommentare

heycalmdown 2021-01-08

Wow, das ist enorm. Ich freue mich auf den Tag, an dem das im Alltag zum Einsatz kommt.