- Eine neue, schnelle State-of-the-Art-Pipeline zur Generierung von 3D-Assets aus Text
- 3DGen kann in weniger als einer Minute 3D-Geometrie und Texturen mit hoher Prompt-Treue und exzellenter Qualität erzeugen
- Unterstützt PBR (physically based rendering), das für die Neubeleuchtung von 3D-Assets in realen Anwendungen erforderlich ist
- Kann die Materialanmutung bereits erzeugter (oder von Künstlern erstellter) 3D-Geometrie mithilfe zusätzlich bereitgestellter Texteingaben generativ verändern
- 3DGen integriert die zentralen Technologiekomponenten Meta 3D AssetGen und Meta 3D TextureGen, die für Text-zu-3D- und Text-zu-Textur-Generierung entwickelt wurden
- Durch die Kombination dieser beiden Technologien stellt 3DGen 3D-Objekte gleichzeitig auf drei Arten dar: im View-Space, im Volumenraum und im UV- (oder Textur-) Raum
- Erreicht eine Gewinnrate von 68 % gegenüber Single-Stage-Modellen
- 3DGen ist deutlich schneller und übertrifft zugleich Branchen-Benchmarks bei Prompt-Treue und visueller Qualität für komplexe Text-Prompts
Verwandte Papers
Meta 3D AssetGen: Text-zu-Mesh-Generierung mit hochwertiger Geometrie, Texturen und PBR-Materialien
- AssetGen ist ein wichtiger Fortschritt bei der Text-zu-3D-Generierung und erzeugt originalgetreue, hochwertige Meshes mit Kontrolle über Textur und Material
- Im Gegensatz zum Einbacken von Schattierung in das Erscheinungsbild von 3D-Objekten gibt AssetGen PBR-Materialien aus, die echte Neubeleuchtung unterstützen
- AssetGen erzeugt zunächst mehrere Ansichten eines Objekts mit faktorisierten Schattierungs- und Albedo-Erscheinungskanälen und rekonstruiert dann Farbe, Metallizität und Rauheit in 3D mithilfe eines Deferred-Shading-Loss für effiziente Supervision
- Außerdem wird eine Signed-Distance-Function verwendet, um 3D-Geometrie stabiler zu repräsentieren, und ein entsprechender Loss für direkte Geometrie-Supervision eingeführt
- Nach der Mesh-Extraktion verbessert ein im UV-Raum arbeitender Transformer zur Texturverfeinerung Schärfe und Details erheblich
- AssetGen erzielt bei der Rekonstruktion aus wenigen Ansichten Verbesserungen von 17 % bei der Chamfer-Distanz und 40 % bei LPIPS gegenüber den besten konkurrierenden Arbeiten und erreicht 72 % menschliche Präferenz gegenüber dem besten ähnlich schnellen Branchenkonkurrenten mit PBR-Unterstützung
Meta 3D TextureGen: Schnelle und konsistente Texturgenerierung für 3D-Objekte
- Die jüngste Verfügbarkeit und Anpassungsfähigkeit von Text-Bild-Modellen hat in vielen verwandten Bereichen wie der Texturgenerierung eine neue Ära eröffnet
- Aktuelle Methoden zur Texturgenerierung erzielen mit Text-Bild-Netzwerken beeindruckende Ergebnisse, doch die Kombination aus globaler Konsistenz, Qualität und Geschwindigkeit ist entscheidend, um Texturgenerierung zu realen Anwendungen weiterzuentwickeln
- Vorgestellt wird Meta 3D TextureGen, eine neue Feed-Forward-Methode aus zwei sequenziellen Netzwerken zur Erzeugung hochwertiger, global konsistenter Texturen für beliebige Geometrien in unter 20 Sekunden
- 3DGen erreicht State-of-the-Art-Ergebnisse bei Qualität und Geschwindigkeit, indem es Text-Bild-Modelle auf die 3D-Semantik im 2D-Raum konditioniert und diese zu vollständigen, hochauflösenden UV-Texturkarten zusammenführt
- Zusätzlich wird ein Netzwerk zur Texturverbesserung eingeführt, das Texturen auf beliebige Maßstäbe hochskalieren und 4k-Pixel-Texturen erzeugen kann
Meinung von GN+
- 3DGen wirkt wie ein bahnbrechender Fortschritt im Bereich der 3D-Asset-Generierung. Die Technologie, auf Basis von Text-Prompts schnell hochwertige 3D-Modelle zu erzeugen, könnte in vielen Bereichen wie Games, Film und Design eingesetzt werden
- Besonders die Unterstützung von PBR-Materialien und die Möglichkeit, die Texturen bereits erstellter 3D-Modelle zu verändern, dürften den praktischen Nutzen deutlich erhöhen
- Allerdings bleibt es wahrscheinlich weiterhin eine schwierige Aufgabe, die Bedeutung von Text-Prompts präzise zu erfassen und 3D-Modelle genau wie beabsichtigt zu erzeugen. Auch Fortschritte beim Prompt Engineering scheinen dafür notwendig
- Es ist spannend, wie Fachleute aus dem 3D-Modellierungsbereich diese Technologie nutzen werden und welchen Einfluss sie auf kreativen Ausdruck haben könnte. Auch ein Vergleich mit bestehenden 3D-Modellierungs-Tools sowie deren Unterschiede, Vor- und Nachteile erscheint nötig
- Es gibt auch andere Lösungen mit ähnlichen Funktionen, etwa Nvidia GET3D oder Luma Labs Imagine 3D. Ein Vergleich der Vor- und Nachteile bei Leistung und Bedienbarkeit wäre sinnvoll
- Da Fortschritte bei der 3D-Modellerzeugung dazu führen könnten, dass jeder leicht gewünschte 3D-Modelle erstellen kann, könnten neue Fragen wie Urheberrechte an 3D-Modellen und Missbrauchspotenzial aufkommen. Dazu scheint eine gesellschaftliche Diskussion und Verständigung nötig
1 Kommentare
Hacker-News-Kommentare
Ein Nutzer sieht die Fortschritte im 3D-Modelling als einen wichtigen Aspekt generativer KI positiv und erwähnt insbesondere, wie schwierig die Erstellung von VR-Assets ist.
Ein anderer Nutzer merkt an, dass die Erstellung von VR-Inhalten sehr arbeitsintensiv ist, und erwartet, dass Tools zur Generierung von 3D-Modellen ein zentraler Treiber des Metaverse werden.
Ein weiterer Nutzer bewertet die jüngsten Dienste zur Umwandlung von Text/Bildern in 3D-Modelle als durchweg nutzlos, weil sie unbrauchbare Ergebnisse erzeugt hätten.
Ein Nutzer erwähnt, dass es sehr beeindruckend sei, das gesamte System mit einer PBR-Texturing-Pipeline zu betreiben.
Ein anderer Nutzer sagt, man erkenne die schlechte Topologie am fehlenden Wireframe.
Ein Nutzer hält dies für einen weiteren bahnbrechenden Schritt bei der digitalen Reproduktion der Realität.
Ein weiterer Nutzer erwartet, dass bald einfache 3D-to-3D-Konvertierung möglich sein wird.
Ein Nutzer stellt sich vor, dass sich generierte Modelle mit Input von Künstlern später bearbeiten oder als Ausgangspunkt verwenden ließen.
Meta 3D Gen wird als bedeutender Fortschritt bei der Erzeugung von 3D-Inhalten für VR-Anwendungen bewertet.
Abschließend sagt ein Nutzer, er würde gern eine alternative Technik zur Screened-Poisson-Oberflächenrekonstruktion mit neuronalen Netzen sehen.