TRELLIS – Modell zur Erzeugung von 3D-Meshes

(trellis3d.github.io)

1 Punkte von GN⁺ 2024-12-10 | 1 Kommentare | Auf WhatsApp teilen

TRELLIS ist ein generatives Modell, das aus Text- oder Bildbedingungen 3D-Assets erstellt und dafür die einheitliche latente Darstellung SLAT mit Rectified Flow Transformers kombiniert, um Qualität und Flexibilität der Ausgabe zu erhöhen
SLAT enthält sowohl ein spärliches 3D-Gitter als auch visuelle Merkmale aus mehreren Ansichten, um Geometrie und Texturen darzustellen, und kann in Radiance Fields, 3D Gaussians und meshes dekodiert werden
Das Modell wurde bis zu einer Größe von 2 Milliarden Parametern auf einem Datensatz mit 500.000 3D-Assets trainiert und soll eine höhere Qualität liefern als bestehende Verfahren, einschließlich aktueller Methoden ähnlicher Größe
Neben Text-zu-3D- und Bild-zu-3D-Erzeugung unterstützt es auch Variationsgenerierung bestehender 3D-Assets sowie lokale Bereichsbearbeitung und zeigt Manipulationen wie das Entfernen von Armen, Hinzufügen von Waffen und Ersetzen von Beinen
Die veröffentlichten Materialien sind auf akademische und Forschungszwecke beschränkt; potenzielle Verzerrungen internetbasierter Datensätze und Grenzen bei der Erzeugung realistischer Objekte aus der realen Welt bleiben bestehen

Ziel und Umfang von TRELLIS

TRELLIS ist ein natives 3D-Generierungsmodell mit dem Ziel skalierbarer und vielfältiger 3D-Erzeugung
Die Projektseite ist die einzige offizielle Webseite von TRELLIS, und die Arbeit ist als CVPR 2025 Highlight gekennzeichnet
Kernziel ist es, aus Text- oder Bildbedingungen hochwertige 3D-Assets zu erstellen und verschiedene Ausgabeformate sowie Bearbeitungsfunktionen bereitzustellen
Code, Modelle und Daten sollen veröffentlicht werden

Structured LATent(SLAT)-Darstellung

SLAT ist eine einheitliche latente 3D-Darstellung für hochwertige und vielseitige 3D-Erzeugung
Lokale latente Vektoren werden in aktiven Voxeln (active voxel) definiert, die die Objektoberfläche schneiden
Die lokalen latenten Vektoren werden kodiert, indem ein 3D-Asset dicht aus mehreren Ansichten gerendert und anschließend Bildmerkmale fusioniert und verarbeitet werden
Diese Merkmale stammen aus einem vortrainierten Vision-Encoder und ergänzen die grobe Struktur, die von den aktiven Voxeln bereitgestellt wird, um feine Geometrie und visuelle Eigenschaften zu erfassen
Durch Anwendung verschiedener Decoder kann SLAT in mehrere 3D-Darstellungen umgewandelt werden
- Radiance Fields
- 3D Gaussians
- meshes

Struktur und Training des generativen Modells

TRELLIS ist eine große Familie von 3D-Generierungsmodellen, die auf SLAT aufbaut und Text-Prompts oder Bilder als Bedingungen verwendet
Die Generierungspipeline ist in zwei Phasen unterteilt
- Zunächst wird die spärliche Struktur von SLAT erzeugt
- Anschließend werden die latenten Vektoren der nicht leeren Zellen erzeugt
Das Backbone-Modell sind Rectified Flow Transformers, die für den Umgang mit der Spärlichkeit von SLAT angepasst wurden
Der Trainingsumfang reicht bis zu 2 Milliarden Parametern und nutzt einen großen Datensatz mit 500.000 vielfältigen 3D-Objekten
Die Ergebnisse sind 3D-Assets mit detaillierter Geometrie und lebendigen Texturen und sollen früheren Methoden deutlich überlegen sein

Beispiele für Generierung und Bearbeitung sowie Ausgabeformate

Text-zu-3D-Beispiele verwenden von GPT-4 erstellte Text-Prompts
- Ein Vintage-Drehtelefon aus Kupfer
- Ein zweistöckiges Backsteinhaus mit rotem Dach und Zaun
- Eine leuchtende Kugel auf einem Steinsockel
- Ein kugelförmiger Roboter mit goldenem und silbernem Design
Bild-zu-3D-Beispiele verwenden von DALL-E 3 erstellte Bild-Prompts
Aussehen und Geometrie auf der Seite werden jeweils aus 3D Gaussians und meshes gerendert
GLB-Dateien werden extrahiert, indem das Aussehen der 3D Gaussians auf ein mesh gebacken wird
Für ein gegebenes 3D-Asset können konsistente Variationen gemäß Text-Prompts erzeugt werden
- Metallische Textur mit orange-weißer Lackierung
- Eine Textur wie gestrickter Stoff in Grün und Violett
- Metalltextur im Stil einer mittelalterlichen Waffe mit Lederband und blauen Akzenten
- Transparente, glasartige Hightech-Struktur
Lokale Manipulationen bearbeiten bestimmte Bereiche gemäß Text- oder Bild-Prompts
- Entfernen eines Arms bei einem humanoiden Kampf-Mecha
- Hinzufügen einer riesigen Strahlenwaffe
- Ersetzen der Beine durch ein Kettenfahrwerk
Erzeugte 3D-Assets können kombiniert werden, um komplexe und lebendige 3D-Art-Designs zu erstellen

Forschungszweck und Einschränkungen

TRELLIS ist ein reines Forschungsprojekt
Der verwendete Datensatz ist ein öffentlicher Datensatz und wurde darauf geprüft, keine personenbezogenen Daten oder schädlichen Inhalte zu enthalten
Da der Datensatz aus dem Internet gesammelt wurde, können potenzielle Verzerrungen bestehen bleiben
Das aktuelle Modell hat Stärken bei der Erzeugung von 3D-Assets in künstlerischen Stilen
Die Fähigkeit, realistische Objekte aus der realen Welt zu erzeugen, ist begrenzt
Die Materialien auf der Seite werden ausschließlich für akademische und Forschungszwecke zur Untersuchung von Text-zu-3D- und Bild-zu-3D-Generierungstechnologien bereitgestellt
Eine kommerzielle Nutzung oder Verwendung ist nicht beabsichtigt
Das zugehörige Paper ist der arXiv-Preprint Structured 3D Latents for Scalable and Versatile 3D Generation

1 Kommentare

GN⁺ 2024-12-10

Meinungen auf Hacker News

Wow, wirklich beeindruckend, aber ich glaube, es ist das erste Mal, dass mir beim Anblick von KI-generierten Inhalten übel geworden ist.
Sie sind so gut gemacht, dass mich Traurigkeit überkommt, weil sie wie seelenlose, hochqualitative Massenware-Assets wirken.
Ich will die Leistung an sich nicht schmälern; es fühlt sich eher so an, als würde sie das Ende handgemachter Assets einläuten.
Mir tun nicht so sehr die Artists leid, sondern eher ich selbst, weil ich mir gerade die Eigenschaft wünsche, dass etwas von Menschenhand gemacht wurde.
Aus demselben Grund mag ich prozedural generierte Spiele nicht besonders. Ich möchte durch eine Welt gehen, die aus dem Kopf von jemandem stammt; wenn ich eine prozedural generierte Welt wollte, die ohne besonderen Grund existiert, könnte ich einfach nach draußen gehen und spazieren.
Ich möchte keine Inhalte oder Haufen von Dingen zum Durchwühlen, sondern Kunstwerke, die von Zeitgenossen mit Absicht geschaffen wurden und ihre Visionen, Ideen, Werte, Einsichten und Persönlichkeit enthalten. Sie müssen gar nicht so gut aussehen; sie sollen nur mit einer Absicht geschaffen worden sein.
- Man könnte es auch so sehen: AAA-Spiele können sich jetzt nicht mehr allein dadurch differenzieren, dass sie „eine unglaubliche Grafik“ haben.
  Ehrlich gesagt wirken die meisten neuen Titel heutzutage eher wie dasselbe Gameplay mit aktualisierter Grafik.
  Wenn ich das aber bald selbst auch machen kann, frage ich mich, was die großen Studios bereithalten werden, damit wir wieder zu ihnen zurückkommen.
- Der Satz „Wenn man eine prozedural generierte Welt wollte, die ohne besonderen Grund existiert, kann man nach draußen gehen“ erinnert mich daran, wie ich vor ein paar Jahren mit Sport im Freien angefangen habe.
  Davor ging ich kaum nach draußen und hielt mich meist nur in einem relativ dunklen Zimmer auf, bis ich eines Tages in den Himmel schaute und dachte: „Wow, diese Wolken sehen aus wie die Wolken in Spielen wie Horizon oder Assassin's Creed.“
  Auch beim Betrachten der Assets wurde ich ein wenig traurig. Das „zweistöckige Backsteinhaus mit rotem Dach und Zaun“ erinnerte mich an das Animation-/Keyframe-Beispiel von three.js.
  Das three.js-Beispiel wurde von einem Menschen von Hand erstellt, und hinter jeder Entscheidung stand eine echte Absicht; Trellis hingegen wirkt einfach wie „puff, hier ist es“ – eine Mischung aus Arbeiten, die im Internet und in Spielen gefunden wurden.
  Durch KI wird mancher Wert verschwinden, aber dadurch könnten handgemachte Inhalte auch wertvoller werden. Fraglich ist nur, ob wir diesen Wert genug anerkennen werden, damit Artists davon nachhaltig leben können.
  https://threejs.org/examples/#webgl_animation_keyframes
- Viele Spieleentwickler hassen Level Design, und der Grund, warum sie keine prozedurale Generierung verwenden, ist, dass diese schwierig ist und sie deshalb gezwungenermaßen handgemachte Welten bauen.
  Ich gehöre auch eher zu dieser Gruppe; wenn jemand mein Spiel spielen und denken würde, das Level sei aus meinem Kopf „entsprungen“, fände ich das ziemlich witzig. Als wäre ich irgendein tiefgründiger Künstler.
  Auf andere Teile der Spieleentwicklung bin ich sehr stolz, aber mein Level Design gehört nicht dazu.
- Ich glaube nicht, dass diese Technik den Wettbewerbsbereich des Menschen grundlegend verändern wird.
  Wenn sie breit genutzt wird, wird es eine Flut minderwertiger Massenware geben, aber echte Artists, die mit einer Absicht etwas schaffen wollen, werden lernen, diese Technik als Sprungbrett zu etwas Größerem zu nutzen.
  Wenn man sich Leute wie Martin Nebelong ansieht, lernt man, wie KI genutzt werden kann, während der Mensch in der Schleife bleibt.
  https://x.com/martinnebelong?s=21&t=cTpE-rRbCiocUlN0VaSheQ
- Für Menschen, die keine 3D-Assets erstellen können, ist es ein wirklich gutes Prototyping-Tool.
  Es ist ähnlich wie visuelles Scripting à la Unreal Blueprints, das Menschen, die mit Programmierung nicht vertraut sind, Game Development und Modding eröffnet hat.
  Wenn man also Modelle für einen Prototyp bekommt, ohne Blender, Maya oder Ähnliches lernen zu müssen, ist das in Ordnung. Selbst wenn sie etwas uneinheitlich und seltsam aussehen, hat man zumindest Inhalte.
Wow, die Ergebnisse sind großartig. Ich bin kein Experte, aber ich glaube, genau das hatten alle im Kopf, als die erste NeRF-Demo erschien.
Beim Suchen habe ich sogar einen Kommentar gefunden, den ich vor fünf Jahren in der Hoffnung darauf geschrieben hatte: https://news.ycombinator.com/item?id=22642628
Der nächste Schritt ist, dass das Modell automatisch „Nodes“ an 3D-Bilder anfügt, um sie pivotieren oder rotieren zu lassen. Dann hat man sofort Animationen und interaktive Inhalte on demand.
Man könnte ein Foto aus der Kindheit eingeben, um eine Erinnerung nachzubilden, und Sprachsamples eines geliebten Menschen hinzufügen, damit er zu einem spricht. Für mehr Immersion setzt man Noise-Cancelling-Kopfhörer auf und geht in VR.
Demnächst verfügbar! Klicken Sie hier, um sich auf die Warteliste für „Surrender Reality“ setzen zu lassen.
- Der nächste Schritt ist, Modelle mit höherwertiger Mesh-Topologie zu erzeugen, bei denen das Mesh auch bei Animation und Bearbeitung nicht kaputtgeht.
  Ich habe viel Retopologie gemacht; wenn man diese Modelle direkt riggt, wird es auf alle möglichen Arten Probleme mit Shading und Deformation geben. Selbst ohne Animation fällt die Triangulierung aus der Nähe ziemlich deutlich auf.
  Trotzdem scheint die Erzeugung hochwertiger 3D-Assets zum Greifen nah. Man müsste den hier gezeigten Ansatz mit KI-Quad-Remeshing auf Basis geschätzter Richtungsfelder und Feature-Erkennung kombinieren; auch das wird erschreckend gut.
- Intuitiv wirkt die Kombination aus einer 3D-Engine und dieser Technik wie eine bessere Lösung als der aktuelle Ansatz, direkt im Latent Space gerasterte Videos zu rendern. Zufällig wurde Sora ebenfalls heute veröffentlicht.
  Es ist vielleicht nicht realistisch, Meshes zu riggen und zu animieren und ein Netzwerk darauf zu trainieren, komplette Szenen beliebiger Videos als „Digital Twin“ aufzusetzen.
  Aber wenn so eine Konfiguration möglich wäre, könnte man erzeugte Videos wohl wesentlich feiner steuern, während der Rest unverändert bleibt.
- Ich bin mir nicht ganz sicher, was hier genau mit „Nodes“ gemeint ist. Beliebige Rotation oder Zoom klingt theoretisch nur gut, wenn man eine lazy susan oder einen sich drehenden Exorzisten-Kopf haben will.
  Der nächste Schritt dürfte eher eine normalere symmetrische Topologie, bessere UV-Maps und automatisches Rigging (FK/IK) für einfache Animationen sein.
- Ich frage mich, welche Auswirkungen das auf 3D-Artists in Game-Development-Studios haben wird.
  Werden Studios solche Tools nutzen, ihre Artists behalten und damit mehr Inhalte schneller und einfacher erstellen lassen, oder behalten sie nur einige wenige und bauen die übrigen 80 % ab, um sie durch diese Tools zu ersetzen?
- Das ist nicht nur für Animationen und interaktive Inhalte on demand nützlich, sondern auch für das Rendering von Standbildern.
  Bislang haben KI-generierte 2D-Bilder falsche Beleuchtung und viele Fehler. Sobald es eine 3D-Szene ist und man sie mit einem kostenlosen Tool wie Blender rendert, wird die Beleuchtung korrekt und konfigurierbar, und fehlerhafte Details lassen sich leicht beheben.
  Es gibt bereits absurd mächtige Tools, und von hier aus werden sie wohl noch viel schneller leistungsfähiger.
Nicht perfekt, aber deutlich besser als die meisten 3D-Modell-Generatoren, die ich bisher ausprobiert habe.
Früher waren die Ergebnisse unglaublich schlecht, diesmal waren sie mehr als passabel.
Jetzt brauche ich nur noch ein Dateiformat, das ich direkt in Orca Slicer laden kann.
Beeindruckend. Mit layer diffusion habe ich dieses Low-Poly-Luftschiff erstellt: https://image.non.io/b3f843be-b1b4-468a-a0ec-9d58b191beee.we...
Das Ergebnis ist dieses: https://video.non.io/video-2732101706.mp4
Ehrlich gesagt überhaupt nicht schlecht, und es nähert sich dem Punkt, an dem man es als Game-Asset verwenden kann.
Ich habe ein Bild des F-117-Stealth-Jets aus Wikipedia eingegeben, aber die Ausgabe war ein kompletter Fehlschlag.
Bei den Beispielen auf der Projektseite konnte ich kaum glauben, wie sie erzeugt wurden; schon die Grundsilhouette war völlig falsch.
Ich hatte gehofft, mehrere Bilder aus verschiedenen Blickwinkeln hochladen zu können, um das zu korrigieren, aber diese Funktion scheint es nicht zu geben.
- Die F-117 sieht ungewöhnlich aus. Wenn man nicht weiß, wie sie eigentlich aussieht, ist es selbst für Menschen ziemlich schwierig, aus einer einzelnen Ansicht in einem bestimmten Winkel zu extrapolieren.
  Wenn sie nicht im Datensatz war, kann man das schon durchgehen lassen. Vor allem wegen ihrer kantigen Form könnte sie leicht fälschlich nicht als Flugzeug erkannt werden.
  Ich will damit nichts über die Modellqualität insgesamt sagen; F-117 wäre ziemlich sicher ein unfairer Test.
Ich habe gesehen, dass es schon vor ein paar Tagen gepostet wurde, aber es ist eine sehr beeindruckende Demo und ich würde sie gern hier diskutiert sehen.
https://news.ycombinator.com/item?id=42342557
Das Potenzial ist sichtbar, aber die Bilder, die ich eingegeben habe, lagen wohl weit außerhalb der Trainingsverteilung; erzeugt wurden nur seltsame flache Platten.
- Bei Bildern im Stil isometrischer Games, die Figuren oder Objekte von oben zeigen, konnte ich es zum Laufen bringen.
  Bei frontal ausgerichteten Bildern kam jedes Mal ein flaches Ergebnis heraus.
- Noch ein wundersames Tool. Bis man es selbst testet.
Es hängt stark vom Bild ab, aber wirklich erstaunlich war, wie Tierfell mit einer passenden Kombination aus Polygon-Mesh und transparenten Texturen nachgebildet wurde.
Selbst die Beispiele auf der Seite zeigten diese Fähigkeit nicht.
https://imgur.com/a/qJp4HNX
AlphaFold ist ein Modell, das aus eindimensionalen Proteinsequenzen 3D erzeugt, und seine interne Datenrepräsentation ist aufwendig und komplex.
Interessant ist dagegen, dass dieses Paper die Eingabedaten im Grunde voxelisiert und aus vielen Blickwinkeln viele Fotos aufnimmt, um das Trainingsset zu erstellen.
Ich konnte damit von einem KI-generierten Bild bis zum 3D-Druck kommen. Die Schritte habe ich hier zusammengefasst: https://x.com/ryanlanciaux/status/1866163343788007619
- Wirklich futuristisch. Man kann mit Worten ein Bild erzeugen und es zu Hause in ein physisches Objekt verwandeln, aber der erklärende Fließtext und die Bilder dazu sind wegen einer kaputten Website nicht lesbar.

TRELLIS – Modell zur Erzeugung von 3D-Meshes

Ziel und Umfang von TRELLIS

Structured LATent(SLAT)-Darstellung

Struktur und Training des generativen Modells

Beispiele für Generierung und Bearbeitung sowie Ausgabeformate

Forschungszweck und Einschränkungen

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News