10 Punkte von xguru 2021-01-07 | 1 Kommentare | Auf WhatsApp teilen
  • GPT-3 in einer Version mit 12 Milliarden Parametern

  • Mit einem Datensatz aus Text-Bild-Paaren darauf trainiert, aus Textbeschreibungen Bilder zu erzeugen

  • Zeigt vielfältige Fähigkeiten, etwa anthropomorphisierte Versionen von Tieren und Objekten zu erzeugen, nicht zusammenhängende Konzepte plausibel zu kombinieren, Text zu rendern oder bestehende Bilder zu verändern

→ Attributsteuerung: Form, Farbe, Material, Anzahl des Auftretens usw.

→ Gleichzeitiges Zeichnen mehrerer Objekte und Darstellung ihrer Beziehungen

→ Darstellung von Perspektive und 3D-Visualisierung

→ Darstellung innerer und äußerer Strukturen: das Innere einer Walnuss, Hirnkorallen usw.

→ Schlussfolgerung von situationsabhängigen Details: Darstellung durch Änderungen von Stil/Setting/Zeit, etwa passende Schatten je nach Situation

→ Mode- und Interior-Design

→ Kombination völlig unzusammenhängender Konzepte: eine aus einer Harfe gemachte Schnecke, ein avocadogeförmter Stuhl

→ Zero-shot Visual Reasoning

→ Bildgenerierung auf Basis geografischer/zeitlicher Informationen

  • DALL·E modelliert Text mit 256 und Bilder mit 1024 Tokens als einen einzigen Stream autoregressiv mit einem einfachen Decoder-only Transformer

1 Kommentare

 
heycalmdown 2021-01-08

Wow, das ist enorm. Ich freue mich auf den Tag, an dem das im Alltag zum Einsatz kommt.