- Erstellt jede Seite per Echtzeit-On-Demand-Generierung als Bild; klickt man auf ein Objekt im Bild, wird ein neuer Bildschirm erzeugt, der dieses Objekt tiefergehend erkundet
- Der Bildschirm enthält weder HTML noch Eingabefelder und funktioniert als pixelzentrierte Oberfläche, bei der selbst Text vom Bildmodell direkt als Pixel gerendert wird
- Die Seiteninformationen werden mithilfe von agentic web search und dem Weltwissen des Bildmodells erstellt; die Genauigkeit wird als ungefähr vergleichbar mit dem beschrieben, was man von ChatGPT, Gemini und Claude erwarten würde
- Die Funktion live video stream animiert die Erkundungsbilder und macht Übergänge flüssiger, ist derzeit aber schwer vorhersehbar und ressourcenintensiv, weshalb sie hinter einem Toggle verborgen ist
- Im Moment ist es eher ein experimentelles Werkzeug zum Erkunden und Lernen, könnte aber mit steigender Genauigkeit und Leistung von Bild- und Videomodellen zu einer Umgebung ausgebaut werden, die mehr reale Daten, Interaktionen, die Ausführung von Aufgaben und sogar Datenspeicherung umfasst
Überblick
- Ein unendlicher visueller Browser, der per Echtzeit-On-Demand-Generierung arbeitet und jede Seite, auf der der Nutzer landet, als Bild aufbaut
- Auf dem Bildschirm gibt es kein HTML, keinen Code, keine bestimmten Links oder Eingabefelder; klickt man auf ein Objekt im Bild, wird ein neues Bild erzeugt, das dieses Objekt tiefergehend erkundet
- Konzipiert das Web nicht als Sammlung von Dokumenten und UI-Elementen neu, sondern als auf dem Bildschirm erzeugte pixelzentrierte Oberfläche
Funktionsweise und Ausbau
- Auch sämtlicher Text auf dem Bildschirm wird vom Bildmodell direkt als Pixel gerendert, ohne ein separates Text-Overlay über das Bild zu legen
- Dadurch kann Text unvollständig sein oder an der falschen Stelle erscheinen; laut Beschreibung dürfte sich das mit besseren Modellen verbessern
- Die Informationen im Bild werden mithilfe von agentic web search und dem eigenen Weltwissen des Bildmodells gemeinsam erzeugt
- Sie können gelegentlich ungenau sein, werden aber als nützlicher Ausgangspunkt beschrieben, der sich meist auf reale Online-Daten stützt
- Die faktische Genauigkeit wird als ungefähr vergleichbar mit dem beschrieben, was man bei ChatGPT, Gemini und Claude erwarten kann
- Ziel ist ein Computing-Erlebnis, das Informationen nicht über Bildschirme voller Text und farbiger Rechtecke, sondern über reichhaltige visuelle Darstellung vermittelt
- Es wird davon ausgegangen, dass sich komplexe und feine Ideen nur schwer allein mit festem Code und Regeln vermitteln lassen; betont wird daher ein Ansatz, je nach Situation die wirksamste Darstellungsform zu wählen, etwa ein einzelnes Wort, eine Illustration oder ein realistisches Rendering
- live video stream ist eine experimentelle Funktion, die statische Bilder in einen kontinuierlicheren Videostream verwandelt, jedes Erkundungsbild animiert und die Übergänge dazwischen flüssiger macht
- Das Verhalten ist derzeit etwas schwer vorhersehbar und zudem ressourcenintensiv, weshalb die Funktion hinter einem ein- und ausschaltbaren Toggle liegt
- Aktuell werden dafür ein hochoptimiertes benutzerdefiniertes Modell zur Videogenerierung und zwei Systeme zur Bildgenerierung gemeinsam verwendet; künftig soll das laut Beschreibung in ein einzelnes System integriert werden
- Derzeit als experimentelles Werkzeug zum Erkunden und Lernen gedacht, könnte es mit steigender Genauigkeit und Leistung von Bild- und Videomodellen zu Seiten ausgebaut werden, die mehr reale Daten enthalten, Interaktionen ermöglichen, Aufgaben direkt ausführen und eigene Daten speichern
- Als Beispiel wird genannt, dass man statt nach der Recherche für die nächste Reise anderswo zu buchen, den gesamten Vorgang innerhalb von Flipbook abwickeln könnte
- Laut Beschreibung könnten Aufgaben, für die heute noch separate Apps und Websites nötig sind, künftig häufiger in einer Umgebung erledigt werden, die wie Flipbook aussieht und funktioniert
- Wird in Browsern ohne Unterstützung für eingebettete Videos nicht abgespielt
- Die Demonstration verwendet vorab generierte Videos und wurde aus Geschwindigkeitsgründen bearbeitet
3 Kommentare
Allein nach der Vorstellung und dem Video würde ich das gern mal ausprobieren ... aber man soll wohl 3 Stunden warten. Scheint, als wäre der Andrang riesig.
https://x.com/DongwooKim/status/2047499005580738657
Ich habe Seoul Namsan ausprobiert, und es wirkte wirklich sehr liebevoll gestaltet und schön.
Hacker-News-Kommentare
Das ist wirklich erstaunlich. Ich habe ein irgendwo gefundenes Diagramm für ein Hydroponik-System hochgeladen, und es hat daraus einzelne hochwertige Diagramme für Details wie
Rohrleitungen, Nährstoffversorgung und elektrische Verkabelung gemacht.
Nicht komplett korrekt, aber das Konzept selbst gefällt mir sehr.
Ich habe es gebeten, ein Diagramm mit Drehmomentangaben für die Fahrwerksaufhängung eines Autos zu erstellen, und weil ich mich mit dem Thema auskenne, konnte ich es prüfen:
Es war fast alles korrekt gezeichnet, und auch die Drehmomentwerte stimmten.
Man konnte einzelne Teile anklicken, weiter hineinzoomen und zusätzliche Spezifikationen sehen.
Das war eine der beeindruckendsten Demos seit Langem und hätte sich wie ein lebendes Haynes-Reparaturhandbuch nutzen lassen.
Es lag nur darin richtig, dass man Solarpanels, Laderegler, Batterie und Verbraucher braucht, aber die Verkabelung ergab keinen Sinn.
Sobald es in Details wie die Konfiguration des Ladereglers ging, brach alles völlig zusammen.
Als Information, auf die man sich wirklich verlassen könnte, taugt es absolut nicht, aber als Kuriosität ist es interessant und die Umsetzung ist beeindruckend.
Das Ergebnis war einfach nur ein gewöhnlicher Schuppen mit einer upcycled door vorne dran.
Man sah nicht einmal, wo die Fahrräder hineinkommen sollen, und vorgeschlagen wurde nur eine Struktur, die der tatsächlichen Endform überhaupt nicht ähnelte.
Wie bei anderen AI-Demos auch wirkt es oberflächlich plausibel, aber das System versteht grundlegend nicht, was es da tut.
Ich bat darum, Teile im Motorraum eines Jeep Wrangler JK zu beschriften, und zunächst kam ein plausibel wirkendes Diagramm heraus.
Aber der Bremsflüssigkeitsbehälter war auf der falschen Seite, und an seiner Stelle war der Kühlmittel-Ausgleichsbehälter beschriftet, während der tatsächliche Ausgleichsbehälter zwar gezeichnet, aber nicht beschriftet war.
Auch die Position der Batterie war falsch, der obere Teil des Frontgrills war als Ölfilterkappe bezeichnet, und auch der Öleinfüllstutzen war an der falschen Stelle.
Die Hälfte der Batterie war als Sicherungskasten beschriftet, während der echte Sicherungskasten korrekt auf der anderen Seite eingezeichnet, aber unbeschriftet war.
Auch der Scheibenwaschbehälter erschien als zwei aneinandergeklebte Behälter.
Wenn man auf den falsch beschrifteten Kühlmittelbehälter klickte, kam eine andere Seite, auf der diesmal nur die Position stimmte, das Aussehen des Behälters aber völlig anders war, und der Kühlerdeckel lag oben auf dem Behälter.
In Wirklichkeit müsste er auf dem Kühler sitzen.
Jemand, der sich auskennt, findet an jeder Stelle Fehler, aber für jemanden ohne Vorwissen sieht es ziemlich glaubwürdig aus — genau wie bei LLMs.
Äußerlich sah es MacPro-ähnlich aus, aber alle visuellen Elemente waren falsch.
Auch der Text wirkte nur auf den ersten flüchtigen Blick richtig, und fast alles, was nach dem Anklicken kam, war ebenfalls falsch.
Es sah cool aus, aber dass eine AI so konsequent danebenliegt, habe ich seit 2023 nicht mehr erlebt.
"your mom"eingegeben, und es erzeugte eine historische gesellschaftliche Zeitleiste der Mutterschaft mit einer darübergelegten Plazenta.Das genehmige ich.
Schönes Projekt, aber ich frage mich bei so etwas immer, woher die Ressourcen und das Geld kommen, um so etwas zu bauen und als öffentlichen Dienst laufen zu lassen.
Vermutlich haben sie eigene GPUs oder nutzen die GPT-/Gemini-API mit subventionierter Enterprise-Inferenz,
aber aus Sicht eines Menschen, der immer sparsam gelebt hat, ist das für mich immer noch schwer greifbar.
Ich hatte überhaupt nicht erwartet, dass das derart explodiert.
Die einen geben Geld für Spiele, Malen oder Holzarbeiten aus,
andere stecken ihr Freizeitbudget aus einem FAANG-Gehalt lieber in ein GenAI-Art-Projekt statt in Alkohol oder Sport.
Es muss nicht der eigene Geschmack sein, aber Ausgaben, die für andere luxuriös wirken, hat praktisch jedes Budget irgendwo.
Hier nennt man das immigrant mentality, nicht abwertend, sondern eher diese Sparsamkeit, die Menschen haben, die ihr Leben von null neu aufbauen mussten.
Außerdem war es extrem langsam, sodass ich am Ende gar nicht gewartet habe.
Das ist kein Vorwurf an die Person, die es gebaut hat, es war einfach wirklich zu langsam.
Zuerst dachte ich, das würde nicht nur Diagramme erzeugen, sondern die Webseite selbst in Echtzeit generieren.
Ich fand die Zukunft schon immer spannend, in der Anwendungen spontan für die Bedürfnisse der Nutzer gebaut werden,
und frage mich, ob es dafür schon echte Umsetzungen gibt.
Es kam ein Mac Neo heraus, mit 2 M4-Quantum-Chips, solid state battery und graphene connector.
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Sneed's Feed and Seed kam heraus. Es stand auch dabei: Formerly Chuck's.
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
Wenn es das korrekt getroffen hätte, wäre ich wirklich beeindruckt gewesen.
Scheint nicht in den Trainingsdaten enthalten zu sein.
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
Die Idee ist interessant, aber im Moment scheitert fast alles.
Vermutlich wegen der HN Hug of Death.
Es erscheint
Gemini generateContent request failedzusammen mit 429 RESOURCE_EXHAUSTED,und dann der Hinweis, dass das aktuelle Kontingent überschritten wurde und man Tarif sowie Abrechnungsdaten prüfen soll.
Ein Link mit detaillierten Limit-Informationen wird ebenfalls angezeigt.
Die Demo auf der Startseite zeigte Paris Travel Overview / Visiting Notre Dame,
also habe ich es mit ein paar Städten und Orten getestet, an denen ich tatsächlich war.
Die Points of Interest selbst wurden oft richtig erkannt, aber ihre räumlichen Lagebeziehungen zueinander waren völlig durcheinander.
Mit der Realität hatte das überhaupt nichts zu tun.
So etwas wirkt wie ein ziemlich teures Produkt, um von einer HN Hug of Death getroffen zu werden.
Die in Tweets geposteten Beispielvideos sahen wirklich großartig aus.
Gerade funktioniert es allerdings nicht gut, also werde ich warten, bis der Traffic etwas nachlässt, und es in ein paar Tagen noch einmal versuchen.