1 Punkte von GN⁺ 2023-11-29 | 1 Kommentare | Auf WhatsApp teilen

MeshGPT: Ein reiner Decoder-Transformer zur Erzeugung von Dreiecks-Meshes

  • MeshGPT erzeugt Dreiecks-Meshes, indem ein Transformer-Modell autoregressiv gesampelt wird, das Tokens aus einem gelernten geometrischen Vokabular generiert.
  • Diese Tokens können in Flächen eines Dreiecks-Meshes dekodiert werden, und die erzeugten Meshes zeichnen sich durch Sauberkeit, Konsistenz, scharfe Kanten und hohe Detailtreue aus.

Zusammenfassung

  • MeshGPT ist ein neues Verfahren zur Erzeugung von Dreiecks-Meshes, das die Kompaktheit von von Künstlern erstellten Meshes widerspiegelt, im Gegensatz zu dichten Dreiecks-Meshes, die aus neuronalen Feldern extrahiert werden.
  • Inspiriert von den jüngsten Fortschritten leistungsfähiger Large Language Models wird ein sequenzbasierter Ansatz verwendet, der Dreiecks-Meshes autoregressiv als Folge von Dreiecken erzeugt.
  • Zunächst wird mithilfe von Graph Convolutions ein Vokabular potenziell quantisierter Embeddings gelernt; diese werden vom Decoder in Sequenzen überführt und in Dreiecke dekodiert, um Meshes effizient zu rekonstruieren.

Videovergleich und weitere Anwendungen

  • Der Ansatz von MeshGPT erzeugt kompakte Meshes mit scharfen geometrischen Details, während bestehende Methoden dazu neigen, solche Details zu verfehlen, übermäßig triangulierte Meshes zu erzeugen oder zu einfache Formen auszugeben.
  • Wenn ein partielles Mesh gegeben ist, kann diese Methode mehrere mögliche Formvervollständigungen ableiten.
  • Die Methode kann zur Erzeugung von 3D-Assets für Szenen verwendet werden; hier wird ein Raum gezeigt, der mit durch diese Methode erzeugten Assets gefüllt ist.

Überblick über die Methode

  • Zunächst wird ein Vokabular für Dreiecks-Meshes gelernt, das anschließend für die autoregressive Erzeugung von Meshes verwendet wird.
  • Ein Vokabular geometrischer Embeddings wird aus einer Sammlung vielfältiger Formen gelernt; verwendet wird dabei ein Encoder-Decoder-Netzwerk mit Vektorquantisierung.
  • Nach vollständigem Training kann dieser Transformer Meshes direkt als Sequenz von Tokens aus dem gelernten Vokabular sampeln.

Meinung von GN⁺

MeshGPT zeigt durch einen innovativen Ansatz, der bestehende Methoden zur Mesh-Erzeugung übertrifft, deutliche Verbesserungen bei Formabdeckung und FID-Werten. Diese Technologie stellt einen großen Fortschritt in den Bereichen 3D-Modellierung und Computergrafik dar und ist besonders interessant, weil sie kompakte Meshes mit scharfen Kanten direkt erzeugen kann, die die effizienten Triangulationsmuster von menschengemachten Meshes besser nachahmen. Diese Entwicklung bietet 3D-Content-Erstellern neue Werkzeuge und eröffnet die Möglichkeit, 3D-Assets mit besserer Qualität schneller und effizienter zu erzeugen.

1 Kommentare

 
GN⁺ 2023-11-29
Hacker-News-Kommentare
  • Eine Studie, die einen Eindruck von einer revolutionären Idee vermittelt und viele Details im Paper enthält. Es ist bekannt, dass Transformer-Modelle skalierbar sind, und diese Idee wird voraussichtlich von vielen Unternehmen genutzt werden, um allgemeine 3D-Asset-Generierungspipelines zu trainieren.

    „Wir lernen zunächst mithilfe von Graph Convolutions ein Vokabular latent quantisierter Embeddings, das Informationen über lokale Mesh-Geometrie und -Topologie enthält. Diese Embeddings werden sequenziert und vom Decoder in Dreiecke dekodiert, wodurch das Mesh effektiv rekonstruiert werden kann.“

  • Als Machine-Learning-Ingenieur mit Interesse an Blender und Hobby-Game-Development ist diese Forschung beeindruckend, aber für die begrenzten Möbelbeispiele nicht besonders als praktische Methode nützlich. Ein erfahrener Modeler kann solche Meshes in weniger als 5 Minuten erstellen, und für die Generierung werden weiterhin Polygone benötigt. Der nächste Schritt wäre vermutlich eine Seed-Generierungskontrolle mit LLMs und das Hinzufügen eines Bildmodells zum autoregressiven Teil der Architektur. Dann könnte man wirklich Assets sehen, die sich für Mobile Games eignen.

  • Als jemand, der beruflich in der 3D-/Filmproduktion arbeitet, fühlt sich die aktuelle Lage sehr spannend und beängstigend an.

  • Ich frage mich, was die Eingabe ist. Wird eine Textabfrage wie „Stuhl“ in ein Mesh umgewandelt? Korrektur: Mesh-Vervollständigung scheint die primäre Eingabe-Ausgabe-Methode zu sein, nicht eine bloße Nebenfunktion.

  • Es wirkt, als würden die verbleibenden schwierigen Probleme, bei denen es seit den 90ern keine großen Fortschritte mehr gab, durch Transformer irgendwie gelöst werden. Faszinierende Zeiten, in denen wir leben.

  • Die nächste Innovation wird die UX sein, mit der man vor einem VR-Headset 3D-Szenen mit solchen Modellen erzeugt. Das würde es uns ermöglichen, permanente und beliebige 3D-Umgebungen für jede Art von Umgebung zu generieren, für die wir Trainingsdaten haben. Diffusionsmodelle könnten für die Texturerzeugung verwendet werden.

  • Selbst wenn das „nur“ Mesh-Autovervollständigung ist, ist es für 3D-Artists sehr nützlich. Derzeit gibt es eine Lücke zwischen der Art, wie man Charaktere modelliert, und der Art, wie man sie animiert. Das Retopologisieren eines Modells kostet viel Zeit. Ein Transformer-basiertes Retopology-System, das ein grobes Mesh nimmt und saubere Topologie liefert, wäre eine enorme Zeitersparnis.

  • Ich liebe dieses Feld. Das Paper enthält eine tolle Website, Beispiele und Videos. Das ist viel erfrischender als der Paper-Stil mit dichtem Abstract, Einleitung und Ergebnissen.

  • Diese Technologie wird wirklich sehr gut! Es gibt zwar immer noch seltsame Kanten, aber inzwischen fühlt es sich eher nach „wiederholten Details“ an als nach algorithmischen oder komplexen Problemen. Wenn man alle Meshes in einen Ordner legen, das Netzwerk trainieren und dann etwas anderes in diesem Stil anfordern könnte, müsste man das Erstellte nicht retopologisieren oder anderweitig kreativ nachbearbeiten. Natürlich leistet procgen bis zu dem Punkt, an dem wir das vollständig erreichen, immer noch die besseren Dienste, aber ich bin sehr begeistert davon, wie schnell sich diese Technik entwickelt! Hoffentlich können wir auf der Unreal-Showcase im nächsten Jahr über ein neues Feature namens „Asset Generator“ sprechen.

  • Diese Technologie sieht wirklich cool aus! Sie scheint für Indie-Game-Entwickler eine enorme Hilfe bei der Erstellung vieler Assets zu sein.