4 Punkte von GN⁺ 2024-07-03 | 1 Kommentare | Auf WhatsApp teilen
  • Eine neue, schnelle State-of-the-Art-Pipeline zur Generierung von 3D-Assets aus Text
  • 3DGen kann in weniger als einer Minute 3D-Geometrie und Texturen mit hoher Prompt-Treue und exzellenter Qualität erzeugen
  • Unterstützt PBR (physically based rendering), das für die Neubeleuchtung von 3D-Assets in realen Anwendungen erforderlich ist
  • Kann die Materialanmutung bereits erzeugter (oder von Künstlern erstellter) 3D-Geometrie mithilfe zusätzlich bereitgestellter Texteingaben generativ verändern
  • 3DGen integriert die zentralen Technologiekomponenten Meta 3D AssetGen und Meta 3D TextureGen, die für Text-zu-3D- und Text-zu-Textur-Generierung entwickelt wurden
  • Durch die Kombination dieser beiden Technologien stellt 3DGen 3D-Objekte gleichzeitig auf drei Arten dar: im View-Space, im Volumenraum und im UV- (oder Textur-) Raum
  • Erreicht eine Gewinnrate von 68 % gegenüber Single-Stage-Modellen
  • 3DGen ist deutlich schneller und übertrifft zugleich Branchen-Benchmarks bei Prompt-Treue und visueller Qualität für komplexe Text-Prompts
Verwandte Papers
Meta 3D AssetGen: Text-zu-Mesh-Generierung mit hochwertiger Geometrie, Texturen und PBR-Materialien
  • AssetGen ist ein wichtiger Fortschritt bei der Text-zu-3D-Generierung und erzeugt originalgetreue, hochwertige Meshes mit Kontrolle über Textur und Material
  • Im Gegensatz zum Einbacken von Schattierung in das Erscheinungsbild von 3D-Objekten gibt AssetGen PBR-Materialien aus, die echte Neubeleuchtung unterstützen
  • AssetGen erzeugt zunächst mehrere Ansichten eines Objekts mit faktorisierten Schattierungs- und Albedo-Erscheinungskanälen und rekonstruiert dann Farbe, Metallizität und Rauheit in 3D mithilfe eines Deferred-Shading-Loss für effiziente Supervision
  • Außerdem wird eine Signed-Distance-Function verwendet, um 3D-Geometrie stabiler zu repräsentieren, und ein entsprechender Loss für direkte Geometrie-Supervision eingeführt
  • Nach der Mesh-Extraktion verbessert ein im UV-Raum arbeitender Transformer zur Texturverfeinerung Schärfe und Details erheblich
  • AssetGen erzielt bei der Rekonstruktion aus wenigen Ansichten Verbesserungen von 17 % bei der Chamfer-Distanz und 40 % bei LPIPS gegenüber den besten konkurrierenden Arbeiten und erreicht 72 % menschliche Präferenz gegenüber dem besten ähnlich schnellen Branchenkonkurrenten mit PBR-Unterstützung
Meta 3D TextureGen: Schnelle und konsistente Texturgenerierung für 3D-Objekte
  • Die jüngste Verfügbarkeit und Anpassungsfähigkeit von Text-Bild-Modellen hat in vielen verwandten Bereichen wie der Texturgenerierung eine neue Ära eröffnet
  • Aktuelle Methoden zur Texturgenerierung erzielen mit Text-Bild-Netzwerken beeindruckende Ergebnisse, doch die Kombination aus globaler Konsistenz, Qualität und Geschwindigkeit ist entscheidend, um Texturgenerierung zu realen Anwendungen weiterzuentwickeln
  • Vorgestellt wird Meta 3D TextureGen, eine neue Feed-Forward-Methode aus zwei sequenziellen Netzwerken zur Erzeugung hochwertiger, global konsistenter Texturen für beliebige Geometrien in unter 20 Sekunden
  • 3DGen erreicht State-of-the-Art-Ergebnisse bei Qualität und Geschwindigkeit, indem es Text-Bild-Modelle auf die 3D-Semantik im 2D-Raum konditioniert und diese zu vollständigen, hochauflösenden UV-Texturkarten zusammenführt
  • Zusätzlich wird ein Netzwerk zur Texturverbesserung eingeführt, das Texturen auf beliebige Maßstäbe hochskalieren und 4k-Pixel-Texturen erzeugen kann
Meinung von GN+
  • 3DGen wirkt wie ein bahnbrechender Fortschritt im Bereich der 3D-Asset-Generierung. Die Technologie, auf Basis von Text-Prompts schnell hochwertige 3D-Modelle zu erzeugen, könnte in vielen Bereichen wie Games, Film und Design eingesetzt werden
  • Besonders die Unterstützung von PBR-Materialien und die Möglichkeit, die Texturen bereits erstellter 3D-Modelle zu verändern, dürften den praktischen Nutzen deutlich erhöhen
  • Allerdings bleibt es wahrscheinlich weiterhin eine schwierige Aufgabe, die Bedeutung von Text-Prompts präzise zu erfassen und 3D-Modelle genau wie beabsichtigt zu erzeugen. Auch Fortschritte beim Prompt Engineering scheinen dafür notwendig
  • Es ist spannend, wie Fachleute aus dem 3D-Modellierungsbereich diese Technologie nutzen werden und welchen Einfluss sie auf kreativen Ausdruck haben könnte. Auch ein Vergleich mit bestehenden 3D-Modellierungs-Tools sowie deren Unterschiede, Vor- und Nachteile erscheint nötig
  • Es gibt auch andere Lösungen mit ähnlichen Funktionen, etwa Nvidia GET3D oder Luma Labs Imagine 3D. Ein Vergleich der Vor- und Nachteile bei Leistung und Bedienbarkeit wäre sinnvoll
  • Da Fortschritte bei der 3D-Modellerzeugung dazu führen könnten, dass jeder leicht gewünschte 3D-Modelle erstellen kann, könnten neue Fragen wie Urheberrechte an 3D-Modellen und Missbrauchspotenzial aufkommen. Dazu scheint eine gesellschaftliche Diskussion und Verständigung nötig

1 Kommentare

 
GN⁺ 2024-07-03
Hacker-News-Kommentare
  • Ein Nutzer sieht die Fortschritte im 3D-Modelling als einen wichtigen Aspekt generativer KI positiv und erwähnt insbesondere, wie schwierig die Erstellung von VR-Assets ist.

    • Er interessiert sich für die Möglichkeit, dass KI auf Basis von Text, Fotos, LIDAR und ähnlichen Eingaben Modelle erstellen kann, mit denen sich reale Gegenstände in 3D drucken lassen.
  • Ein anderer Nutzer merkt an, dass die Erstellung von VR-Inhalten sehr arbeitsintensiv ist, und erwartet, dass Tools zur Generierung von 3D-Modellen ein zentraler Treiber des Metaverse werden.

  • Ein weiterer Nutzer bewertet die jüngsten Dienste zur Umwandlung von Text/Bildern in 3D-Modelle als durchweg nutzlos, weil sie unbrauchbare Ergebnisse erzeugt hätten.

  • Ein Nutzer erwähnt, dass es sehr beeindruckend sei, das gesamte System mit einer PBR-Texturing-Pipeline zu betreiben.

    • Er fragt sich, ob der Einsatz von SDFs (Signed Distance Fields) zu schlechter Topologie führen kann.
    • Er verweist auf eine Arbeit zum Aufbau von Topologie, die für Games geeignet ist, und meint, dass damit auch Rigging für Animationen möglich sein dürfte.
  • Ein anderer Nutzer sagt, man erkenne die schlechte Topologie am fehlenden Wireframe.

  • Ein Nutzer hält dies für einen weiteren bahnbrechenden Schritt bei der digitalen Reproduktion der Realität.

    • Wenn das System auf den Zustand eines Menschen reagieren könne, lasse sich in einer sicheren Umgebung für Szenarien lernen, die sich in der Realität nur schwer handhaben lassen.
    • Auf Basis der in der virtuellen Welt gelernten Lektionen könne man dann wie bei einer neuen Geburt in die reale Welt hinaustreten.
  • Ein weiterer Nutzer erwartet, dass bald einfache 3D-to-3D-Konvertierung möglich sein wird.

    • Damit würde er gern Meshes und Texturen alter Spiele hochskalieren.
  • Ein Nutzer stellt sich vor, dass sich generierte Modelle mit Input von Künstlern später bearbeiten oder als Ausgangspunkt verwenden ließen.

    • Oder man könnte einen PS1-Filter anwenden und damit Retro-Spiele erstellen.
  • Meta 3D Gen wird als bedeutender Fortschritt bei der Erzeugung von 3D-Inhalten für VR-Anwendungen bewertet.

    • Die Fähigkeit, aus Texteingaben detaillierte 3D-Modelle zu erzeugen, könnte den Prozess der Content-Erstellung deutlich verkürzen.
    • Allerdings wird erwähnt, dass die aktuelle Technik bei der Erzeugung hochwertiger, detaillierter Geometrie weiterhin vor Herausforderungen steht.
    • Die Integration von PBR-Texturing ist vielversprechend, doch entscheidend ist, wie gut sich die Modelle in realen Anwendungen verfeinern und einsetzen lassen.
  • Abschließend sagt ein Nutzer, er würde gern eine alternative Technik zur Screened-Poisson-Oberflächenrekonstruktion mit neuronalen Netzen sehen.

    • Er habe sich MeshAnything angesehen, meint aber, dass dies nicht das Endziel sei.