5 Punkte von xguru 2022-07-29 | 1 Kommentare | Auf WhatsApp teilen
  • Übersetzt visuelle Montageanleitungen von Lego, die aus 2D-Bildern bestehen, so, dass sie von Maschinen interpretierbar werden
  • Behandelt dies als eine Aufgabe fortlaufender Vorhersagen, bei der das Modell die Anleitung Schritt für Schritt liest, die zur aktuellen Form hinzuzufügende Komponente findet und anschließend die 3D-Form erschließt
  • Erfordert unter anderem die 2D-3D-Zuordnungsaufgabe zwischen den 2D-Bildern der Anleitung und dem tatsächlichen 3D-Objekt sowie die Inferenz der Form zuvor nicht gesehener (Unseen) 3D-Objekte
  • Stellt dafür das lernbasierte Framework MEPNet (Manual-to-Executable-Plan Network) vor
  • Die Kernidee sind ein 2D-Keypoint-Erkennungsmodul, ein 2D-3D-Projektionsalgorithmus für hochpräzise Vorhersagen sowie eine starke Generalisierung auf Unseen-Komponenten