- Die bisherige Text-zu-Bild-Synthese wurde durch Diffusionsmodelle ermöglicht, die mit Milliarden von Bild-Text-Paaren trainiert wurden
- Um diesen Ansatz auf 3D anzuwenden, wären ein groß angelegter gelabelter 3D-Datensatz und eine Architektur zur Entrauschung nötig, doch beides existiert nicht
- Daher wird eine vorab trainierte 2D-Text-to-Image-Diffusion genutzt, um Text-to-3D-Synthese durchzuführen
- Das aus Text erzeugte 3D-Modell kann aus allen Blickwinkeln betrachtet werden; außerdem lassen sich die Beleuchtung ändern oder das Modell in andere 3D-Umgebungen einfügen
Noch keine Kommentare.