7 Punkte von GN⁺ 2025-05-10 | 1 Kommentare | Auf WhatsApp teilen
  • LegoGPT ist ein innovatives Projekt, das allein aus Texteingaben stabile und tatsächlich baubare LEGO-Strukturen erzeugt
  • Mit dem Datensatz StableText2Lego werden mehr als 47.000 physisch stabile LEGO-Strukturen samt detaillierter Beschreibungen bereitgestellt
  • Der Algorithmus wendet schnelle Validierungsprüfungen und physikbasiertes Rollback an, um unrealistische Strukturen automatisch zu entfernen
  • Die erzeugten LEGO-Designs können sowohl von Menschen als auch von Robotern real zusammengebaut werden und unterstützen zudem verschiedene Farben und Texturdarstellungen
  • Das System eröffnet neue Möglichkeiten in Bereichen wie kreativem Design-Prototyping, Bildung und Robotik-Anwendungen

Projektvorstellung

  • LegoGPT ist der erste Ansatz, der auf Basis von Text-Prompts in einem vollständig automatisierten Verfahren tatsächlich baubare und physisch stabile LEGO-Strukturen erzeugt
  • Das Projekt wurde mit einem groß angelegten LEGO-Strukturdaten­satz samt detaillierten Beschreibungen aufgebaut und erzeugt Ergebnisse mit Stabilität, Vielfalt und ästhetischer Qualität – auch im realen Zusammenbau
  • Experimentell wurde bestätigt, dass die erzeugten LEGO-Strukturen tatsächlich von Menschen per Hand oder automatisiert mit einem Roboterarm montiert werden können

StableText2Lego-Datensatz

  • Der StableText2Lego-Datensatz voxelisiert Formen aus ShapeNetCore-3D-Meshes und wendet verschiedene Verfahren zur Platzierung von Steinen an, wobei nur Strukturen übernommen werden, die die Prüfung auf physische Stabilität bestehen
  • Im Datenerzeugungsprozess werden für jede Struktur Ansichten aus 24 Blickwinkeln gerendert, auf deren Basis GPT-4o automatisch ausgearbeitete Beschreibungstexte erzeugt
  • Der so aufgebaute Datensatz umfasst mehr als 47.000 LEGO-Strukturen mit vielfältigen Formen, Strukturen und Texturen sowie mehr als 28.000 einzigartige 3D-Objekte

LegoGPT-Pipeline

  • LEGO-Strukturen werden von unten nach oben im Raster-Scan-Verfahren in Text-Token-Sequenzen tokenisiert und als Eingabe verwendet
  • Durch die Paarung jeder Steinsequenz mit einer natürlichsprachlichen Beschreibung wird ein auf LLaMA-3.2-Instruct-1B basierendes Modell feinabgestimmt, um die Zuordnung von Beschreibung zu Steinsequenz zu lernen
  • In der Inferenzphase erzeugt LegoGPT auf Grundlage des Text-Prompts die LEGO-Struktur schrittweise, indem jeweils ein Stein vorhergesagt und hinzugefügt wird
  • Bei jedem hinzugefügten Stein werden Validierungsprüfungen für Format, Vorhandensein in der Steinbibliothek und Kollisionen durchgeführt; nach der vollständigen Erzeugung wird die physische Stabilität erneut überprüft
  • Falls die endgültige Struktur instabil ist, werden der instabile Stein und alle danach hinzugefügten Steine entfernt und bis zu einem stabilen Zustand zurückgerollt, bevor die Erzeugung fortgesetzt wird

Beispiel für die schrittweise Erzeugung von LEGO-Strukturen

  • "Ein schlankes Boot mit langem, schmalem Rumpf"
  • "Ein Bücherregal mit horizontalen Regalböden"
  • "Eine Bank mit Armlehnen ohne Rückenlehne"
  • Jedes Beispiel wird aus einem Text-Prompt schrittweise zu einer LEGO-Struktur erzeugt, die die visuellen Merkmale klar widerspiegelt

Automatischer Zusammenbau mit Robotern

  • Die erzeugten LEGO-Modelle werden für den realen Zusammenbau mit einem Roboterarm eingesetzt und in einem 8-fach beschleunigten Video demonstriert
  • Beispiele wie "Ein schlankes Boot mit langem, schmalem Rumpf" und "Asymmetrische sechssaitige Gitarre" zeigen die tatsächliche Anwendbarkeit für robotergestützten Zusammenbau

Erzeugte LEGO-Modelle mit Texturen und Farben

  • Mit natürlichsprachlichen Prompts wie "moosbedeckte Bank", "Neon-Gradient-Cyberpunk-Material" oder "Regal im viktorianischen Arbeitszimmer" werden LEGO-Designs ermöglicht, die sogar Texturen, Materialien und spezifische ästhetische Effekte ausdrücken können
  • Auch vielfältige Farben und Metalleffekte wie bei "Sunburst Les Paul with amber finish" lassen sich allein per Text in LEGO-Entwürfe übertragen

Zitation und Forschungsförderung

  • Angaben zum Paper, zu den Autoren und zu den Förderinstitutionen der Forschung (z. B. Packard Foundation, Amazon Faculty Award) sind aufgeführt
  • Das Projekt wurde unter verschiedenen akademischen und industriellen Förderungen durchgeführt, darunter etwa ein Microsoft Research PhD Fellowship für einen der Hauptforschenden

Projektverweise und Template

  • Das Template der Website orientiert sich am Layout der Projekte Custom Diffusion und DreamFusion

1 Kommentare

 
GN⁺ 2025-05-10
Hacker-News-Kommentar
  • Wir nutzen effiziente Validierung und physikbasierte Rollbacks, um die Stabilität der Ergebnisse zu erhöhen; dadurch werden unmögliche Token-Vorhersagen anhand physikalischer Gesetze und Montagebeschränkungen abgeschnitten. Einer der interessantesten Aspekte beim Einsatz von AI ist, dass sie innerhalb manuell programmierter, domänenspezifischer Constraints Möglichkeiten erzeugt und optimiert. Zum Beispiel braucht eine Verkehrssteuerungs-AI zwingend harte Constraints, um Kollisionen zu verhindern. Innerhalb solcher Vorgaben kann die AI dann frei mit Optimierungsideen experimentieren. Letztlich kommt es darauf an, wie man den Problemraum und die Constraints entwirft. In diesem Fall sind das LEGO-Steine, ihre Kombinationen und ihre Stabilität
    • Das ist ein typisches Beispiel für Metaheuristiken, wie es sie seit Jahrzehnten gibt. Es existieren viele verschiedene Algorithmen, und es gibt auch leicht zugängliche Einführungen dazu: https://cs.gmu.edu/~sean/book/metaheuristics/
    • Eine einfache Version davon zeigt sich inzwischen auch bei LLMs. Wenn man den JSON-Schema-Modus nutzt, um illegale Zustände von vornherein auszuschließen, und das Modell in einen begrenzten Raum setzt, kann man zumindest garantieren, dass nur gültige Ergebnisse herauskommen. Das ist eine Art Typsicherheit. Validierungs- und Korrekturlogik lässt sich auch auf viele andere Verifikationsszenarien anwenden. Ich hoffe, solche Anwendungen werden häufiger
    • Für solche Probleme würde ich eher ein MILP- oder CLP-basiertes Modell erwarten. Die Constraints definieren den Suchraum, und Solver-Algorithmen durchsuchen ihn
    • Reinforcement Learning könnte hier ebenfalls interessant sein. Wenn man dem System negative Belohnungen gibt, könnte es anfangen, Sicherheitsregeln einzuhalten. In produktiven Systemen muss man Schutzmechanismen aber unbedingt beibehalten https://en.wikipedia.org/wiki/Reinforcement_learning
    • Ich habe nicht nachgelesen, wie die Constraints hier genau angewendet werden. Ähnliche Methoden nutzt man auch, um bei LLMs strukturierte Ausgaben wie JSON zu erzwingen. llama.cpp unterstützt ebenfalls benutzerdefinierte Grammar-Matches
    • Dem stimme ich vollkommen zu. Wenn man Generierungsergebnisse durch Physik, Zulässigkeit und Tool-Constraints begrenzt, wird das Modell eher zu einer Such- und Verifikationsmaschine als zu einem bloßen Wortvorhersager. Das liegt näher an Program Synthesis. Der eigentliche Wert besteht darin, den Problemraum so präzise zu definieren, dass das Modell innerhalb einer „Box“ nur wirklich nützliche Ergebnisse erzeugen kann
    • Ein lustiges Experiment dazu: Man bittet ein LLM, „APPLE“ zu sagen, setzt aber die Logits für alle Apple-bezogenen Tokens auf -Unendlich, sodass es das Wort nicht verwenden kann. Dann kommt etwas heraus wie: „Banane. Nur ein Witz. Banane. Oh, ich habe mich vertan, weil sie lecker ist. Ich versuche es noch einmal: Orange. Oh, diesmal Traube. Nein, dieses knackige Gemüse Karotte“
    • Ich denke ebenfalls, dass AI genau in diesem Bereich wirklich glänzt. Menschen legen die Regeln fest — etwa Physikgesetze oder Verkehrssicherheit — und AI findet im riesigen Suchraum die beste Lösung
    • Ich glaube, dass Error-Feedback der eigentliche Schlüssel ist, der echte Möglichkeiten eröffnet. Wenn man zum Beispiel einem Text-to-SQL-Bot das Error-Feedback des SQL-Providers gibt, erzeugt er deutlich bessere Queries
    • In der kombinatorischen Chemie gibt es ein ähnliches Konzept, man könnte es also auch AI Chemistry nennen https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • Dieses Projekt hat gute Chancen, eine Abmahnung von LEGO-Anwälten zu bekommen. Wer auf Nummer sicher gehen will, sollte das Wort LEGO vermeiden und stattdessen Bricks oder Klemmbausteine sagen. Viele haben schon Streit mit dem LEGO-Rechtsteam gehabt, und das war wirklich unerquicklich
    • Da hier tatsächlich LEGO-Steine verwendet werden, ist das nicht irreführend. Etwas unklar ist nur, dass nicht ausdrücklich gesagt wird, dass das Projekt nichts mit LEGO zu tun hat. Andererseits scheint keine Monetarisierung geplant zu sein, daher wirkt auch das Argument schwächer, dass LEGO dadurch geschädigt würde, was das Risiko reduziert
    • Selbst YouTuber oder kleine Hobbyseiten bekommen gelegentlich Löschaufforderungen, allein wegen des Kontexts, in dem das Wort benutzt wird
    • Gleichzeitig verkauft Amazon ganz ungeniert ein Boy and Tiger Adventure Blocks Set, das sowohl LEGO als auch Calvin & Hobbes kopiert https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • Da es sich um akademische Forschung handelt, würde ich das unter Fair Use einordnen
    • Das denke ich auch. Da wird bald Ärger kommen
    • Ich frage mich, warum manche sich wie Nintendo verhalten, statt wie Sega die Community zu umarmen
  • Das Ergebnis ist nicht besonders beeindruckend. Es werden viel zu wenige Brick-Typen genutzt, und die Resultate sehen dem beabsichtigten Objekt auch nicht besonders ähnlich. Es wirkt, als könnte ein handgeschriebener Algorithmus bessere Ergebnisse liefern
    • Das Spannende an dieser Arbeit ist nicht der fotorealistische Eindruck, sondern die Kombination aus Sprachverständnis und physischer Montierbarkeit
    • Nur die Fake-Textur lässt es halbwegs plausibel wirken. Mit bloßen farbigen Steinen wäre es nur ein Klumpen
    • Wenn man bedenkt, dass es sich um ein feinabgestimmtes 1B-Modell handelt, ist es sehr interessant
    • Was ich wirklich brauche, ist eine AI, der ich ein Foto meines Brick-Haufens gebe und die mir auf Basis der vorhandenen Steine eine Bauanleitung erstellt. Technisch wäre das schon heute möglich, aber dafür müsste man wohl ein spezialisiertes Modell trainieren
  • Auf dem iPhone werden GIFs automatisch abgespielt, sobald man zu ihrer Position scrollt, was die Navigation auf der Website sehr unangenehm macht
    • Ich frage mich, wann endlich alle lernen, dass Autoplay etwas ist, das man niemals aktivieren sollte
    • Umgekehrt habe ich auf Firefox Desktop gar nicht bemerkt, dass dort GIFs angezeigt wurden, und konnte daher nicht erkennen, was das Bild eigentlich ausdrücken sollte
    • Mit dem Attribut playsinline beim video-Tag lässt sich das Problem beheben https://developer.mozilla.org/en-US/docs/…. Schade, dass iOS sich standardmäßig so verhält
  • Ich möchte das Bauen mit LEGO nicht automatisieren. Gerade der Prozess des Selberbauens macht doch Spaß. Was ich stattdessen brauche, ist Automatisierung nach dem Bauen: Aufräumen, nach Farbe und Form sortieren und ordentlich verstauen. Es wäre schön, wenn Wissenschaftler anfangen würden, zuerst die Probleme zu lösen, die die Welt wirklich braucht. Darin steckt echter Wert und echtes Geld
    • Es gibt einen Fall, in dem 2 Tonnen Lego sortiert wurden, sowie einen Artikel und Links zur ersten Maschine, die Lego mithilfe von AI automatisch sortiert https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • Dass reale Probleme schwer zu lösen sind, liegt auch an der akademischen Kultur, in der das Veröffentlichen von Papers alles ist
    • Wahre Innovation bedeutet nicht, den spaßigen Teil zu automatisieren, sondern den lästigen Teil verschwinden zu lassen
    • Genau das wollte ich auch schreiben. Das eigentliche Problem bei Lego ist das Aufräumen und Sortieren
  • Wirklich ein tolles Projekt! Das GIF, das den Bauprozess zeigt, macht geradezu süchtig. Für alle, die nach Informationen zum Datensatz gesucht haben: https://huggingface.co/datasets/AvaLovelace/StableText2Lego. Er enthält mehr als 47.000 LEGO-Strukturen und deckt über 28.000 einzigartige 3D-Objekte in 21 ShapeNetCore-Kategorien ab. Wie man lokal inferiert, steht auf GitHub: https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • Bei „a basic sofa“ sieht man, dass die Steine in der Animationsreihenfolge in der Luft schweben würden. Das ist ein Hinweis auf die Grenzen der Art und Weise, wie das Modell Designs erzeugt. Wenn man einen Roboter einsetzen wollte, um die generierten Entwürfe automatisch zusammenzubauen, wäre dieses Design vermutlich ein großes Problem
    • Genau darauf wollte ich auch hinweisen. Das fertige Ergebnis sieht okay aus, aber die animierte Reihenfolge des Zusammenbaus hat erhebliche Probleme. Man müsste zuerst den zweilagigen Boden bauen, damit die obere Lage die Steine darunter fixiert. Erst danach kann man die Beine anbringen
  • Es ist schon komisch, einen 50.000-Dollar-Roboter dabei zuzusehen, wie er LEGO im Wert von ein paar Dollar zusammenbaut. Das wirkt wie ein Seniorenheim für Roboter
    • In zehn Jahren könnte es durchaus Roboter-Monteure geben, die viel schneller als Menschen bauen
    • Genau deshalb ist in Asien die manuelle Montage immer noch weit verbreitet
    • Viele sagen, LEGO sei teuer, aber wenn man sich einmal einen Roboter zum LEGO-Bauen anschaut, merkt man erst, was wirklich teuer ist
  • Es scheint nicht viel mehr zu sein, als ein 3D-Modell in Voxels umzuwandeln und dann in Steine zu überführen. Wirklich gute Ergebnisse entstehen erst, wenn man kreativ mit vielen verschiedenen Brick-Typen arbeitet und nicht nur mit 2x2 und 2x4. Ich frage mich, welcher Algorithmus am besten geeignet wäre, um schöne MOCs automatisch zu erzeugen. Vielleicht sollte man einen Kaggle-Wettbewerb mit 50.000 Dollar Preisgeld veranstalten — was meint ihr?