LegoGPT – Automatische Erzeugung von tatsächlich baubaren LEGO-Designs aus Text
(avalovelace1.github.io)- LegoGPT ist ein innovatives Projekt, das allein aus Texteingaben stabile und tatsächlich baubare LEGO-Strukturen erzeugt
- Mit dem Datensatz StableText2Lego werden mehr als 47.000 physisch stabile LEGO-Strukturen samt detaillierter Beschreibungen bereitgestellt
- Der Algorithmus wendet schnelle Validierungsprüfungen und physikbasiertes Rollback an, um unrealistische Strukturen automatisch zu entfernen
- Die erzeugten LEGO-Designs können sowohl von Menschen als auch von Robotern real zusammengebaut werden und unterstützen zudem verschiedene Farben und Texturdarstellungen
- Das System eröffnet neue Möglichkeiten in Bereichen wie kreativem Design-Prototyping, Bildung und Robotik-Anwendungen
Projektvorstellung
- LegoGPT ist der erste Ansatz, der auf Basis von Text-Prompts in einem vollständig automatisierten Verfahren tatsächlich baubare und physisch stabile LEGO-Strukturen erzeugt
- Das Projekt wurde mit einem groß angelegten LEGO-Strukturdatensatz samt detaillierten Beschreibungen aufgebaut und erzeugt Ergebnisse mit Stabilität, Vielfalt und ästhetischer Qualität – auch im realen Zusammenbau
- Experimentell wurde bestätigt, dass die erzeugten LEGO-Strukturen tatsächlich von Menschen per Hand oder automatisiert mit einem Roboterarm montiert werden können
StableText2Lego-Datensatz
- Der StableText2Lego-Datensatz voxelisiert Formen aus ShapeNetCore-3D-Meshes und wendet verschiedene Verfahren zur Platzierung von Steinen an, wobei nur Strukturen übernommen werden, die die Prüfung auf physische Stabilität bestehen
- Im Datenerzeugungsprozess werden für jede Struktur Ansichten aus 24 Blickwinkeln gerendert, auf deren Basis GPT-4o automatisch ausgearbeitete Beschreibungstexte erzeugt
- Der so aufgebaute Datensatz umfasst mehr als 47.000 LEGO-Strukturen mit vielfältigen Formen, Strukturen und Texturen sowie mehr als 28.000 einzigartige 3D-Objekte
LegoGPT-Pipeline
- LEGO-Strukturen werden von unten nach oben im Raster-Scan-Verfahren in Text-Token-Sequenzen tokenisiert und als Eingabe verwendet
- Durch die Paarung jeder Steinsequenz mit einer natürlichsprachlichen Beschreibung wird ein auf LLaMA-3.2-Instruct-1B basierendes Modell feinabgestimmt, um die Zuordnung von Beschreibung zu Steinsequenz zu lernen
- In der Inferenzphase erzeugt LegoGPT auf Grundlage des Text-Prompts die LEGO-Struktur schrittweise, indem jeweils ein Stein vorhergesagt und hinzugefügt wird
- Bei jedem hinzugefügten Stein werden Validierungsprüfungen für Format, Vorhandensein in der Steinbibliothek und Kollisionen durchgeführt; nach der vollständigen Erzeugung wird die physische Stabilität erneut überprüft
- Falls die endgültige Struktur instabil ist, werden der instabile Stein und alle danach hinzugefügten Steine entfernt und bis zu einem stabilen Zustand zurückgerollt, bevor die Erzeugung fortgesetzt wird
Beispiel für die schrittweise Erzeugung von LEGO-Strukturen
- "Ein schlankes Boot mit langem, schmalem Rumpf"
- "Ein Bücherregal mit horizontalen Regalböden"
- "Eine Bank mit Armlehnen ohne Rückenlehne"
- Jedes Beispiel wird aus einem Text-Prompt schrittweise zu einer LEGO-Struktur erzeugt, die die visuellen Merkmale klar widerspiegelt
Automatischer Zusammenbau mit Robotern
- Die erzeugten LEGO-Modelle werden für den realen Zusammenbau mit einem Roboterarm eingesetzt und in einem 8-fach beschleunigten Video demonstriert
- Beispiele wie "Ein schlankes Boot mit langem, schmalem Rumpf" und "Asymmetrische sechssaitige Gitarre" zeigen die tatsächliche Anwendbarkeit für robotergestützten Zusammenbau
Erzeugte LEGO-Modelle mit Texturen und Farben
- Mit natürlichsprachlichen Prompts wie "moosbedeckte Bank", "Neon-Gradient-Cyberpunk-Material" oder "Regal im viktorianischen Arbeitszimmer" werden LEGO-Designs ermöglicht, die sogar Texturen, Materialien und spezifische ästhetische Effekte ausdrücken können
- Auch vielfältige Farben und Metalleffekte wie bei "Sunburst Les Paul with amber finish" lassen sich allein per Text in LEGO-Entwürfe übertragen
Zitation und Forschungsförderung
- Angaben zum Paper, zu den Autoren und zu den Förderinstitutionen der Forschung (z. B. Packard Foundation, Amazon Faculty Award) sind aufgeführt
- Das Projekt wurde unter verschiedenen akademischen und industriellen Förderungen durchgeführt, darunter etwa ein Microsoft Research PhD Fellowship für einen der Hauptforschenden
Projektverweise und Template
- Das Template der Website orientiert sich am Layout der Projekte Custom Diffusion und DreamFusion
1 Kommentare
Hacker-News-Kommentar
llama.cppunterstützt ebenfalls benutzerdefinierte Grammar-Matchesplaysinlinebeimvideo-Tag lässt sich das Problem beheben https://developer.mozilla.org/en-US/docs/…. Schade, dass iOS sich standardmäßig so verhält