LL3M: Ein 3D-Modellierer auf Basis großer Sprachmodelle

(threedle.github.io)

11 Punkte von GN⁺ 2025-08-18 | 1 Kommentare | Auf WhatsApp teilen

LL3M nutzt mehrere große Sprachmodelle, um automatisch Python-Code zu schreiben und damit in Blender 3D-Assets zu erstellen und zu bearbeiten
Anhand von Textanweisungen der Nutzer erzeugt es direkt kreative und präzise Formen und setzt komplexe geometrische Operationen als Code um
Im Unterschied zu bestehenden Tools zur 3D-Modellerzeugung bietet es uneingeschränkte Asset-Erstellung und fein granularen Interaktion
Der erzeugte Blender-Code ist klar und bietet eine hohe Parametertransparenz, sodass Nutzer oder Agenten ihn leicht anpassen oder iterativ verbessern können
Es zeigt breite Möglichkeiten für die Verarbeitung von 3D-Assets, darunter konsistente Stilisierung, Materialbearbeitung und Umsetzung von Hierarchiestrukturen

Überblick über LL3M

LL3M ist ein innovatives Framework, bei dem mehrere LLM-Agenten Python-Code schreiben, um 3D-Assets in Blender zu erstellen und zu bearbeiten
Wenn Nutzer Anweisungen per Text geben, automatisiert LL3M die Erzeugung kreativer Formen und präziser geometrischer Manipulationen und nutzt hochrangigen Code als 3D-Darstellungsform, wodurch iterative Verbesserungen und Zusammenarbeit möglich werden
Der Code ist klar erläutert, und verschiedene Parameter und Strukturen werden transparent offengelegt, was zusätzliche Bearbeitung und fortlaufendes Feedback der Nutzer erleichtert

Überblick über die Pipeline

Die Pipeline besteht aus drei Hauptphasen: anfängliche Erzeugung, automatische Verbesserung und Verbesserung auf Basis von Nutzerfeedback
- In der Phase der anfänglichen Erzeugung werden Grundformen erstellt, während LL3M logisch unpassende Strukturen oder einfache geometrische Elemente automatisch erkennt und verbessert
- Die zweite Phase nimmt weiter verfeinerte automatische Korrekturen vor und berücksichtigt dabei auch komplexe Formen und Beziehungen
- Die letzte Phase nimmt zusätzliche Bearbeitungswünsche der Nutzer auf und ermöglicht interaktive und iterative 3D-Asset-Erstellung
Jede Phase setzt auf eine Rollenverteilung zwischen den Agenten und realisiert so eine iterative und schrittweise Verbesserung

Galerie und Leistung

Erzeugung vielfältiger Formen: Komplexe Anordnungen und feine Details wie Windmühlen, Klaviere und Drumsets werden als Code umgesetzt
Anwendung konsistenter Stile: Dieselbe Anweisung "steampunk" wird auf mehrere Meshes (Hüte) angewendet, wodurch Ergebnisse mit gemeinsamem Stil und zugleich Variationen entstehen
Unterstützung für Materialbearbeitung: So kann zum Beispiel nur der Klingenbereich separat über Shader-Nodes definiert werden, um das Material zu ändern

Interpretierbarkeit des Codes

Der erzeugte Code enthält strukturelle Logik, klare Variablennamen und Kommentare, wodurch er leicht zu verstehen und zu modifizieren ist
Beispiel: Die Logik für ein Tastaturmuster oder Variablen für Tastenbreiten können direkt geändert werden
Blender-Nodes und Parameter sind unmittelbar sichtbar, sodass visuelle Eigenschaften wie Farben und Muster intuitiv angepasst werden können

Wiederverwendbarkeit und Allgemeingültigkeit des Codes

Selbst bei unterschiedlichen Formen werden übergeordnete Code-Muster wie Schleifen, Modifier und Node-Setups wiederverwendet
Dadurch wird die Erzeugung modularen und anpassbaren Codes für verschiedene Prompts möglich

Szene und Hierarchiestruktur

Mehrere Objekte werden erzeugt und ihre räumlichen Beziehungen automatisch über Instancing und Parenting angeordnet
Beispiel: Beim Erzeugen zusammengesetzter Objekte wie einer Lampe wird eine Eltern-Kind-Beziehungsstruktur abgebildet, damit Transformationen hierarchisch weitergegeben werden
Jeder Teil erhält aussagekräftige semantische Namen, sodass er im Scene Graph von Blender effizient verwaltet werden kann

1 Kommentare

GN⁺ 2025-08-18

Hacker-News-Kommentare

Ich hatte unerwartet guten Erfolg mit meshy.ai, wenn ich Bilder, die Freunde wollten, in brauchbare 3D-Modelle umwandeln musste. Mein Workflow ist: 1) Das Ausgangsbild mit einem Bildmodell wie GPT-5 oder Midjourney in etwas verwandeln, das wie ein sauber gerendertes Mesh aussieht, also unnötige Details sowie transparente oder plastische Effekte entfernen. 2) Dieses bereinigte Bild in den Image-to-3D-Modus von meshy.ai geben und, falls mir das Ergebnis nicht gefällt, wieder zu Schritt 1 zurückgehen und den Bildstil ändern. 3) Das Ergebnis schließlich nach Blender übertragen und das Mesh nach Wunsch bearbeiten (bestimmte Teile anpassen, Asymmetrien hinzufügen usw.) und dann weiteres Modeling machen. Die Mesh-Struktur ist ziemlich stabil; es fühlt sich an, als würde wahrscheinlich so etwas wie Marching Cubes oder Dual Contouring auf einem NeRF-artigen Generator verwendet. Ich bin in mechanischem CAD wirklich schnell, aber nur durchschnittlich in Blender, daher ist es extrem effizient, wenn die AI die grobe Form des Modells erstellt und ich nur noch per Hand korrigieren und verfeinern muss. Wenn ein Freund zum Beispiel möchte, dass ich eine Statue einer realen Person abwandle, hätte mich das früher viel zu viel Zeit gekostet; mit der Kombination aus AI und Blender investiere ich 5 Minuten, um ein Modell zu erzeugen, und brauche dann in Blender nur noch etwa eine Stunde zum Feinschliff — ein deutlich spürbarer Produktivitätsschub
- Du sagtest in Schritt 1, du wandelst das Bild in etwas mit einem matten, gerenderten Mesh-Look um. Mich würde interessieren, was für eine Art Bild du damit genau meinst. Dass transparente Oberflächen undurchsichtig gemacht werden, verstehe ich, aber ich würde gern ein Gesamtbeispiel des Bildes sehen oder die Prompts kennenlernen, die du dafür verwendest
- GPT-5 ist ein reines Textmodell. ChatGPT verwendet für Bildverarbeitung weiterhin 4o
Ich nutze Blender seit über 7 Jahren, habe auf Blender Stack Exchange mehr als 1000 Antworten geschrieben und etwa 48.000 Punkte. Dieses AI-basierte Blender-Tool mag vielleicht okay sein, um Python zu lernen, insbesondere die Grundlagen der Blender Python API, aber in der Praxis sehe ich keinen großen Bedarf dafür. Die als Beispiele gezeigten Aufgaben sind in Blender wirklich sehr leicht, und mit solchen Tools bekommt man am Ende nur fade Ergebnisse, die zu den Eingabe-Prompts passen. Einfaches Modeling kann man in einem Tag mit Tutorials lernen und dann selbst erstellen; der große Vorteil ist, dass diese Modelle dann die eigene Kreativität widerspiegeln. Nach etwa einer Woche kann man sie meist schneller selbst bauen als per AI-Prompt, und die eigenen Fähigkeiten wachsen dabei auch noch. Von AI lernt man nicht viel. meshy.ai ist okay, wenn es darum geht, Fotos oder Renderings in Meshes umzuwandeln und passende Texturen aufzubringen, aber danach passt es eher zu Leuten, die im Sculpting schwach sind. Meine Testergebnisse zu meshy.ai habe ich übrigens hier zusammengefasst
- Selbst wenn man ein paar Tage Blender-Tutorials verfolgt, kommt man nicht auf das Niveau der Beispiele. Du projizierst da wohl zu sehr dein eigenes Können hinein. Für jemanden, der kein 3D-Modellkünstler ist, sondern einfach nur ein 3D-Modell brauchte, ist so eine Technik wirklich nützlich
- Ich bin auch Hobby-Nutzer von Houdini, und ein einzelnes parametrisiertes Modell ist in ein paar Tagen machbar. Aber um ein kurzes Video oder eine komplette Szene zu erstellen, braucht man Hunderte bis Tausende von Modellen und Texturen, Rigging, Animationen und sogar Simulationen. Schon eine zweiminütige Animation ist für einen Solo-Künstler fast unmöglich. Die meisten kaufen Asset-Pakete und kombinieren sie, aber dann wird die eigene Kunst von diesem Stil abhängig. Solche AI-Tools nehmen einem ein oder zwei dieser Schritte stark ab und erweitern so den Bereich, den man allein bewältigen kann
- Als Entwickler und Designer von AI-Kundensupport-Tools habe ich das Gefühl, meinem Unternehmen ständig erklären zu müssen, dass LLMs wenig dialogführend und wenig kreativ sind. Ich wünschte, der Fokus läge weniger auf Einzelfunktionen und stärker darauf, AI in Werkzeuge zu integrieren, um repetitive Arbeit zu beschleunigen. Funktionen wie die automatische Constraint-Erstellung mit AI in Fusion360 erhöhen die Produktivität wirklich. Für Blender fände ich Tools in dieser Richtung deutlich interessanter, zum Beispiel automatisches Verbinden von Materialien
- Wenn man nicht wochenlang Blender lernen will, ist es am effizientesten, wenn man schon mit ein paar Stunden Einsatz ein brauchbares Ergebnis bekommt
- Man sollte nicht vergessen: Das ist heute der schlechteste Zustand, den dieses Tool je haben wird. Es wird von nun an nur besser werden, und die Einsatzfelder von LLMs stehen erst ganz am Anfang
Das ist genau die Richtung, die ich Freunden schon lange predige. In Zukunft wird API-zentrierte Kreativsoftware gewinnen. After Effects bietet eine brauchbare JS API, und Da Vinci Resolve lässt sich mit Python, Lua und verschiedenen anderen Skripten automatisieren. Während des Scriptings wird auch Transaction-Rollback gut unterstützt. Der Bedarf an einem allgemein nutzbaren MCP für Scripting-Umgebungen in den meisten Desktop-Apps wird immer größer. Dazu braucht es auch Screen-Capture, das mit multimodalen Eingaben verbunden ist
Ich habe kürzlich mit Claude ein automatisiertes Lua-Skript geschrieben, das in Aseprite (einem Pixel-Editor) prozedural generierte Charaktere erstellt. Mit einem Seed ließ sich das Ergebnis reproduzieren, und grob kam schon eine menschenähnliche Form heraus, aber qualitativ ist es noch weit entfernt. Trotzdem war es sehr zugänglich und hat Spaß gemacht.
- https://www.aseprite.org
- Wenn dich das Thema interessiert, lohnt sich vielleicht auch ein Blick auf pixellab.ai. Sie entwickeln ein Aseprite-Plugin, das allein per Prompt schon ganz ordentliche Sprite-Bilder erzeugt
- Ich suche auch weiterhin nach guter Pixel-Art-AI. Die meisten Tools, die ich ausprobiert habe, waren nur okay, aber nicht beeindruckend. Wenn jemand gute Erfahrungen gemacht hat, würde ich mich über einen Empfehlungslink freuen
Bevor man die Qualität der 3D-Modelle herabsetzt, sollte man sich erst einmal an das alte Dancing Baby und frühe Pixar-Animationen erinnern — das ist eine erstaunliche Entwicklung. Ich freue mich auf eine Zukunft, in der man einem LLM einfach einen Prompt gibt und ein fast fertiges 3D-Modell herauskommt, sodass ich nur noch Texturen, Baking und Export erledigen muss
- Ich freue mich auch auf die nahe Zukunft, in der die über Billionen Stunden angesammelten experimentellen Daten der Menschheit in statistischen Modellen aggregiert und von Unternehmen monetarisiert werden, ohne dass die Menschen, die das überhaupt erst möglich gemacht haben, auch nur einen Cent dafür bekommen
- LLMs sind Sprachmodelle, und Mesh-Daten sind keine Sprache. Theoretisch könnte man mit Python einfache Meshes erzeugen, aber wirklich schöne 3D-Kunst macht auf diese Weise niemand. So wie man Vektorgrafiken auch nicht erstellt, indem man direkt SVG-Code schreibt, ist visuelle Kunstproduktion allein mit LLMs schwierig. LLMs können als Interface für andere Modelle dienen, aber sie selbst können nicht einfach alles erzeugen
Es ist ermutigend, wie stark sich die räumliche Intelligenz von LLMs zuletzt verbessert hat. Noch vor einem Jahr waren sie völlig verwirrt, wenn man sie auch nur eine Geschichte mit Positionsbegriffen wie oben/unten, links/rechts oder vorne/hinten schreiben ließ, und konnten das nicht richtig auseinanderhalten. Als ich GPT fragte, welche CAD-Software sich am besten skripten lässt, antwortete es Freecad. Blender ist eher ein Modeler als CAD, unter anderem weil präzises Messen dort nicht möglich ist. Die Freecad-API ist strukturell weniger aufgeräumt, sodass GPT die relevanten Funktionen nicht gut erinnert oder findet. Blender funktioniert viel besser, weil es mehr Nutzer und mehr geteilten Code gibt
- Wie sieht es mit OpenSCAD aus?
- Ich frage mich, ob man auch Skripte schreiben kann, die Messaufgaben in CAD automatisieren
Ich habe Blender mehrfach ausprobiert und dann wieder aufgegeben. Heute nutze ich Blender nur noch, wenn ich in Openshot animierte Titel erstelle. Wege, die Nutzung fortgeschrittener Tools einfacher zu machen, sind immer willkommen
Ich denke, dass für alles tokenbasierte große Modelle entstehen werden. Denn alle Daten der Welt lassen sich tokenisieren. Der Umweg über Sprache ist nicht zwingend nötig, und AI wird nach und nach auch geometrische Daten flüssig verarbeiten können
- Die Ablehnung gegenüber AI-generierten Daten kommt meist aus ihrer Sprachgebundenheit. Deshalb können wirklich kreative Eingaben nicht richtig einfließen
- So wie word2vec früher eine große Innovation ausgelöst hat, konnten auch 3D-Modelle im Grunde als Vektorraum dargestellt werden
Entscheidend ist hier der Agent-Workflow. Während sich das Verständnis von LLMs für die 3D-Welt weiter verbessert, wird das in vielen Situationen hilfreich sein. Auch für Aufgaben wie Bug-Checks durch Experten, Empfehlungen oder Pop-up-Hilfen, die im Hintergrund ohne menschliches Eingreifen Probleme aufspüren, ist das nützlich. Die Fähigkeit, das programmatisch zu steuern, wird ebenfalls immer wertvoller werden
Ich bin kein Modeler, habe es aber während der Solo-Entwicklung eines 3D-Spiels ein paarmal versucht. Für mich war Modeling ein notwendiger Schmerz. Mit solchen Tools würde ich in Indie-Projekten schnell extrem Low-Poly-Basismodelle erzeugen und sie dann als Grundlage nehmen, um sie manuell detailliert zu überarbeiten. Für mich ist Zeitersparnis wertvoller als höchste Qualität

LL3M: Ein 3D-Modellierer auf Basis großer Sprachmodelle

Überblick über LL3M

Überblick über die Pipeline

Galerie und Leistung

Interpretierbarkeit des Codes

Wiederverwendbarkeit und Allgemeingültigkeit des Codes

Szene und Hierarchiestruktur

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare