- Übersetzt visuelle Montageanleitungen von Lego, die aus 2D-Bildern bestehen, so, dass sie von Maschinen interpretierbar werden
- Behandelt dies als eine Aufgabe fortlaufender Vorhersagen, bei der das Modell die Anleitung Schritt für Schritt liest, die zur aktuellen Form hinzuzufügende Komponente findet und anschließend die 3D-Form erschließt
- Erfordert unter anderem die 2D-3D-Zuordnungsaufgabe zwischen den 2D-Bildern der Anleitung und dem tatsächlichen 3D-Objekt sowie die Inferenz der Form zuvor nicht gesehener (Unseen) 3D-Objekte
- Stellt dafür das lernbasierte Framework MEPNet (Manual-to-Executable-Plan Network) vor
- Die Kernidee sind ein 2D-Keypoint-Erkennungsmodul, ein 2D-3D-Projektionsalgorithmus für hochpräzise Vorhersagen sowie eine starke Generalisierung auf Unseen-Komponenten
1 Kommentare
Das erinnert mich an das Startup brickit, das mithilfe von KI Teile klassifiziert, wenn man ein Foto eines Haufens LEGO-Steine macht, und dann LEGO-Modelle vorschlägt, die man daraus bauen kann.