4 Punkte von xguru 2024-03-14 | 2 Kommentare | Auf WhatsApp teilen
  • Der Roboter Figure 01 kann nun vollständig mit Menschen sprechen
  • Das OpenAI-Modell bietet visuelle und sprachliche Intelligenz auf hohem Niveau
  • Das neuronale Netzwerk von Figure ermöglicht schnelle, agile Roboterbewegungen auf niedriger Ebene
  • Er kann beschreiben, was er sieht, auf die Bitte nach etwas zu essen einen Apfel greifen und übergeben sowie die Situation beurteilen und Tassen und den Tisch aufräumen

2 Kommentare

 
erados 2024-03-14

Jetzt gibt es also noch eine weitere Art der Ausgabe.

 
xguru 2024-03-14

Hacker-News-Kommentare

  • Ich bin von der Beweglichkeit des Roboters beeindruckt, aber wer GPT-4 erlebt hat, wird von den Sprach- und Schlussfolgerungsfähigkeiten des Roboters vielleicht nicht überrascht sein. Die Function-Calling-Fähigkeit ist beeindruckend, aber die interaktive „Welt“ ist sehr einfach. Es ist spannend zu sehen, wie ein Roboter mit der realen Welt interagiert. Was den Fortschritt der aktuellen KI bremst, sind Kosten und Geschwindigkeit der Inferenz. Wenn wir einen Weg finden, tausende Tokens pro Sekunde günstig zu verarbeiten, könnten viele schwierige Probleme gelöst werden und wir würden tatsächlich erstaunliche Anwendungen sehen.
  • Per Sprache eines der vortrainierten Verhaltensmuster auszuwählen ist cool, aber nicht revolutionär. Mit GPT-4V eine Szene zu beschreiben ist ebenfalls relativ einfach. Am beeindruckendsten ist, wie schnell er Müll aufhebt und Gegenstände flexibel von einer Hand in die andere übergibt. Wie allgemein diese Bewegungsstrategie ist, bleibt unklar. Wenn man sieht, wie die Person vollkommen still dasteht, hat man das Gefühl, dass alles scheitern würde, sobald nicht alles exakt eingerichtet ist. Ich würde gern eine Demo mit mehr Variabilität sehen. Trotzdem halte ich diese Demo für großartig und möchte mehr sehen.
  • Die Inferenz mit niedriger Latenz von Groq zeigt echten praktischen Nutzen. Wegen der Verzögerung in den Antworten wirkt es vielleicht nicht beeindruckend, aber es ist trotzdem sehr beeindruckend.
  • Dass der Roboter einen schmutzigen Teller mit Müll und einem Apfel darauf in den Geschirrständer stellt, ist fragwürdig. Der Teller sollte zuerst gespült werden.
  • Die Fähigkeit, Text in Servomotor-Bewegungen umzusetzen, ist erstaunlich, und es sieht so aus, als seien GPT-4 Vision und Whisper stark genutzt worden. Auch der Begriff „Reasoning“ wird hier neu verwendet. Man könnte es ein AI-Wrapper-Unternehmen nennen. Natürlich ist das Medium etwas anderes als eine App. Selbst wenn die KI-Entwicklung heute stehen bliebe, gäbe es viele erstaunliche KI-Anwendungen.
  • Die humanoide Form und die Stimme vermitteln ein anderes Gefühl als eine reine Chat-Version. Wenn man noch Blickkontakt hinzufügen würde, wäre der Eindruck noch stärker. Ich stelle mir vor, das der breiten Öffentlichkeit zu demonstrieren.
  • Dass Sprache in Servomotor-Bewegungen umgesetzt wird, ist beeindruckend. Die Geschwindigkeit, mit der Aufgaben erledigt werden, die Beweglichkeit erfordern, ist erstaunlich, und dies ist die erste Demo eines Roboters zur Objektmanipulation, die auch ohne beschleunigtes Video „natürlich“ wirkt.
  • Ich möchte wie ein fünfjähriges Kind sein, das nicht weiß, wie unrealistisch und nutzlos das alles ist, und nur ein einziges Mal positiv über die Zukunft nachdenken. Aber die Menschheit versteht nicht, dass man unterhalb grundlegender Wohnbedürfnisse keinen „Anstieg imaginärer Zahlen“ betreiben kann, und es gibt keinen Weg, diese Technologie nützlich, günstig, zuverlässig und gut zu machen.
  • Der beeindruckendste Teil dieser Demo ist für mich, dass der Roboter „sieht“ und Gegenstände mit menschenähnlichen Gliedmaßen aufhebt. Vielleicht habe ich etwas verpasst, aber ich dachte, das sei extrem schwierig. Soweit ich weiß, ist inverse Kinematik schwierig — haben sie das mit neuronalen Netzen gelöst?
  • Dasselbe Video auf YouTube: Figure Status Update - OpenAI Speech-to-Speech Reasoning