1 Punkte von GN⁺ 2024-12-10 | 1 Kommentare | Auf WhatsApp teilen

Einführung einer neuen Methode zur 3D-Generierung

  • Structured LATent (SLAT)-Repräsentation: Es wird eine einheitliche strukturierte latente Repräsentation vorgestellt, die sich in verschiedene Ausgabeformate dekodieren lässt. Sie integriert dichte visuelle Multi-View-Merkmale, die aus leistungsstarken visuell basierten Modellen extrahiert wurden, mit einem spärlich besetzten 3D-Gitter und erfasst dadurch umfassend strukturelle (geometrische) sowie texturbezogene (visuelle) Informationen.

  • Rectified Flow Transformers: Ein auf SLAT zugeschnittenes 3D-Generierungsmodell, das mit bis zu 2 Milliarden Parametern auf einem groß angelegten 3D-Asset-Datensatz mit 500.000 unterschiedlichen Objekten trainiert wurde. Es erzeugt hochwertige Ergebnisse auf Basis von Text- oder Bildkonditionen und übertrifft bestehende Methoden deutlich.

Erzeugung und Bearbeitung von 3D-Assets

  • Text- und bildbasierte Erzeugung von 3D-Assets: TRELLIS kann mit Text- oder Bild-Prompts verschiedene 3D-Assets erzeugen. Beispiele sind ein kupfernes Wählscheibentelefon, ein zweistöckiges Backsteinhaus oder ein kugelförmiger Roboter.

  • Variationen von Assets und lokale Bearbeitung: Auf Basis eines gegebenen 3D-Assets lassen sich entsprechend einem Text-Prompt Variationen erzeugen, und durch die Bearbeitung bestimmter Bereiche können neue Designs entstehen. So ist es beispielsweise möglich, einem Kampfroboter die Arme zu entfernen oder Waffen hinzuzufügen.

Anwendungen und Methodik von TRELLIS

  • 3D-Art-Design: Durch die Kombination der von TRELLIS erzeugten hochwertigen 3D-Assets lassen sich komplexe und lebendige 3D-Art-Designs einfach erstellen.

  • Strukturierte latente Repräsentation: SLAT kombiniert spärliche Strukturen mit leistungsstarken visuellen Repräsentationen, indem lokale Latents für aktive Voxels definiert werden, die die Objektoberfläche schneiden. Diese Merkmale werden aus leistungsstarken vortrainierten Vision-Encodern abgeleitet und erfassen detaillierte geometrische und visuelle Eigenschaften.

  • TRELLIS-Modell: Es wird ein groß angelegtes 3D-Generierungsmodell trainiert, das Text-Prompts oder Bilder als Bedingung nutzt. Es verwendet eine zweistufige Pipeline, die zunächst die spärliche Struktur von SLAT erzeugt und anschließend latente Vektoren für nicht leere Zellen generiert. Dadurch lassen sich 3D-Assets leicht in verschiedene Ausgabeformate erzeugen.

1 Kommentare

 
GN⁺ 2024-12-10
Hacker-News-Kommentare
  • Zum ersten Mal wird mir von KI-generierten Inhalten regelrecht übel. Solche Inhalte sind zwar sehr beeindruckend, aber es macht mich traurig, weil es sich anfühlt, als würden von Menschen geschaffene Werke verschwinden. Ich möchte Welten, die aus menschlichen Gedanken entstehen, nicht prozedural generierte Spiele.

    • Ich will keine Inhalte, sondern Kunstwerke. Ich will Werke, die Kolleginnen und Kollegen mit ihrer eigenen Vision und ihren eigenen Werten geschaffen haben.
  • Seit der NeRF-Demo scheint jeder daran gedacht zu haben. Ich habe meinen Kommentar von vor fünf Jahren wiedergefunden. Der nächste Schritt ist, 3D-Bildern „Knoten“ hinzuzufügen, um Inhalte zu schaffen, die Animation und Interaktion ermöglichen.

    • Man gibt Fotos aus der Kindheit ein, stellt Erinnerungen nach und fügt Sprachproben geliebter Menschen hinzu, damit Gespräche möglich werden. Mit VR und geräuschunterdrückenden Kopfhörern ließe sich die Immersion weiter steigern.
  • Es ist nicht perfekt, aber von allem, was ich bisher ausprobiert habe, ist es der beste 3D-Modellgenerator. Ich hätte gern ein Dateiformat, das ich direkt in Orca Slicer laden kann.

  • Ich habe ein Bild des F-117-Stealth-Bombers aus der Wikipedia ausprobiert, aber das Ergebnis ist komplett gescheitert. Es braucht eine Funktion, mit der man Bilder aus mehreren Blickwinkeln hochladen kann.

  • Ich frage mich, ob es eine Demo der Funktion „Text to 3D Asset“ gibt.

  • Ich habe gesehen, dass das vor ein paar Tagen eingereicht wurde, aber es ist eine sehr beeindruckende Demo. Ich hoffe, dass es hier diskutiert wird.

  • Ich sehe das Potenzial, aber bei dem von mir bereitgestellten Bild scheint es außerhalb des Trainingsbereichs zu liegen, daher wurden nur seltsame flache Ebenen erzeugt.

  • Mit Layer Diffusion habe ich ein Low-Poly-Luftschiff erstellt. Es erreicht inzwischen ein Niveau, auf dem es als Game-Asset verwendet werden kann.

  • Ich habe Fotos von Kabeln und Steckern hochgeladen und daraus ein Stecker-Mesh mit einzelnen Drähten und den korrekten Öffnungen erzeugt.

  • Das Modellieren von Nix-Schneeflocken war ziemlich miserabel. Es scheint stärker auf natürliche und biologische Strukturen und Texturen trainiert zu sein.