Flipbook – eine Website, die direkt aus dem Modell live gestreamt wird

(flipbook.page)

6 Punkte von GN⁺ 6 일 전 | 3 Kommentare | Auf WhatsApp teilen

Erstellt jede Seite per Echtzeit-On-Demand-Generierung als Bild; klickt man auf ein Objekt im Bild, wird ein neuer Bildschirm erzeugt, der dieses Objekt tiefergehend erkundet
Der Bildschirm enthält weder HTML noch Eingabefelder und funktioniert als pixelzentrierte Oberfläche, bei der selbst Text vom Bildmodell direkt als Pixel gerendert wird
Die Seiteninformationen werden mithilfe von agentic web search und dem Weltwissen des Bildmodells erstellt; die Genauigkeit wird als ungefähr vergleichbar mit dem beschrieben, was man von ChatGPT, Gemini und Claude erwarten würde
Die Funktion live video stream animiert die Erkundungsbilder und macht Übergänge flüssiger, ist derzeit aber schwer vorhersehbar und ressourcenintensiv, weshalb sie hinter einem Toggle verborgen ist
Im Moment ist es eher ein experimentelles Werkzeug zum Erkunden und Lernen, könnte aber mit steigender Genauigkeit und Leistung von Bild- und Videomodellen zu einer Umgebung ausgebaut werden, die mehr reale Daten, Interaktionen, die Ausführung von Aufgaben und sogar Datenspeicherung umfasst

Überblick

Ein unendlicher visueller Browser, der per Echtzeit-On-Demand-Generierung arbeitet und jede Seite, auf der der Nutzer landet, als Bild aufbaut
Auf dem Bildschirm gibt es kein HTML, keinen Code, keine bestimmten Links oder Eingabefelder; klickt man auf ein Objekt im Bild, wird ein neues Bild erzeugt, das dieses Objekt tiefergehend erkundet
Konzipiert das Web nicht als Sammlung von Dokumenten und UI-Elementen neu, sondern als auf dem Bildschirm erzeugte pixelzentrierte Oberfläche

Funktionsweise und Ausbau

Auch sämtlicher Text auf dem Bildschirm wird vom Bildmodell direkt als Pixel gerendert, ohne ein separates Text-Overlay über das Bild zu legen
- Dadurch kann Text unvollständig sein oder an der falschen Stelle erscheinen; laut Beschreibung dürfte sich das mit besseren Modellen verbessern
Die Informationen im Bild werden mithilfe von agentic web search und dem eigenen Weltwissen des Bildmodells gemeinsam erzeugt
- Sie können gelegentlich ungenau sein, werden aber als nützlicher Ausgangspunkt beschrieben, der sich meist auf reale Online-Daten stützt
- Die faktische Genauigkeit wird als ungefähr vergleichbar mit dem beschrieben, was man bei ChatGPT, Gemini und Claude erwarten kann
Ziel ist ein Computing-Erlebnis, das Informationen nicht über Bildschirme voller Text und farbiger Rechtecke, sondern über reichhaltige visuelle Darstellung vermittelt
Es wird davon ausgegangen, dass sich komplexe und feine Ideen nur schwer allein mit festem Code und Regeln vermitteln lassen; betont wird daher ein Ansatz, je nach Situation die wirksamste Darstellungsform zu wählen, etwa ein einzelnes Wort, eine Illustration oder ein realistisches Rendering
live video stream ist eine experimentelle Funktion, die statische Bilder in einen kontinuierlicheren Videostream verwandelt, jedes Erkundungsbild animiert und die Übergänge dazwischen flüssiger macht
- Das Verhalten ist derzeit etwas schwer vorhersehbar und zudem ressourcenintensiv, weshalb die Funktion hinter einem ein- und ausschaltbaren Toggle liegt
- Aktuell werden dafür ein hochoptimiertes benutzerdefiniertes Modell zur Videogenerierung und zwei Systeme zur Bildgenerierung gemeinsam verwendet; künftig soll das laut Beschreibung in ein einzelnes System integriert werden
Derzeit als experimentelles Werkzeug zum Erkunden und Lernen gedacht, könnte es mit steigender Genauigkeit und Leistung von Bild- und Videomodellen zu Seiten ausgebaut werden, die mehr reale Daten enthalten, Interaktionen ermöglichen, Aufgaben direkt ausführen und eigene Daten speichern
- Als Beispiel wird genannt, dass man statt nach der Recherche für die nächste Reise anderswo zu buchen, den gesamten Vorgang innerhalb von Flipbook abwickeln könnte
- Laut Beschreibung könnten Aufgaben, für die heute noch separate Apps und Websites nötig sind, künftig häufiger in einer Umgebung erledigt werden, die wie Flipbook aussieht und funktioniert
Wird in Browsern ohne Unterstützung für eingebettete Videos nicht abgespielt
Die Demonstration verwendet vorab generierte Videos und wurde aus Geschwindigkeitsgründen bearbeitet

3 Kommentare

xguru 6 일 전

Allein nach der Vorstellung und dem Video würde ich das gern mal ausprobieren ... aber man soll wohl 3 Stunden warten. Scheint, als wäre der Andrang riesig.

arthurk 6 일 전

https://x.com/DongwooKim/status/2047499005580738657
Ich habe Seoul Namsan ausprobiert, und es wirkte wirklich sehr liebevoll gestaltet und schön.

GN⁺ 6 일 전

Hacker-News-Kommentare

Das ist wirklich erstaunlich. Ich habe ein irgendwo gefundenes Diagramm für ein Hydroponik-System hochgeladen, und es hat daraus einzelne hochwertige Diagramme für Details wie
Rohrleitungen, Nährstoffversorgung und elektrische Verkabelung gemacht.
Nicht komplett korrekt, aber das Konzept selbst gefällt mir sehr.
Ich habe es gebeten, ein Diagramm mit Drehmomentangaben für die Fahrwerksaufhängung eines Autos zu erstellen, und weil ich mich mit dem Thema auskenne, konnte ich es prüfen:
Es war fast alles korrekt gezeichnet, und auch die Drehmomentwerte stimmten.
Man konnte einzelne Teile anklicken, weiter hineinzoomen und zusätzliche Spezifikationen sehen.
Das war eine der beeindruckendsten Demos seit Langem und hätte sich wie ein lebendes Haynes-Reparaturhandbuch nutzen lassen.
- Ich habe es ein 12V-Solarsystem für einen Gartenschuppen entwerfen lassen, und nur das grobe Gesamtbild stimmte, der Rest war komplett falsch.
  Es lag nur darin richtig, dass man Solarpanels, Laderegler, Batterie und Verbraucher braucht, aber die Verkabelung ergab keinen Sinn.
  Sobald es in Details wie die Konfiguration des Ladereglers ging, brach alles völlig zusammen.
  Als Information, auf die man sich wirklich verlassen könnte, taugt es absolut nicht, aber als Kuriosität ist es interessant und die Umsetzung ist beeindruckend.
- Ich plane, aus einer alten Tür aus dem Hinterhof einen Fahrradunterstand zu bauen, und habe mir dafür einen Entwurf erstellen lassen.
  Das Ergebnis war einfach nur ein gewöhnlicher Schuppen mit einer upcycled door vorne dran.
  Man sah nicht einmal, wo die Fahrräder hineinkommen sollen, und vorgeschlagen wurde nur eine Struktur, die der tatsächlichen Endform überhaupt nicht ähnelte.
  Wie bei anderen AI-Demos auch wirkt es oberflächlich plausibel, aber das System versteht grundlegend nicht, was es da tut.
- Ich habe es selbst getestet.
  Ich bat darum, Teile im Motorraum eines Jeep Wrangler JK zu beschriften, und zunächst kam ein plausibel wirkendes Diagramm heraus.
  Aber der Bremsflüssigkeitsbehälter war auf der falschen Seite, und an seiner Stelle war der Kühlmittel-Ausgleichsbehälter beschriftet, während der tatsächliche Ausgleichsbehälter zwar gezeichnet, aber nicht beschriftet war.
  Auch die Position der Batterie war falsch, der obere Teil des Frontgrills war als Ölfilterkappe bezeichnet, und auch der Öleinfüllstutzen war an der falschen Stelle.
  Die Hälfte der Batterie war als Sicherungskasten beschriftet, während der echte Sicherungskasten korrekt auf der anderen Seite eingezeichnet, aber unbeschriftet war.
  Auch der Scheibenwaschbehälter erschien als zwei aneinandergeklebte Behälter.
  Wenn man auf den falsch beschrifteten Kühlmittelbehälter klickte, kam eine andere Seite, auf der diesmal nur die Position stimmte, das Aussehen des Behälters aber völlig anders war, und der Kühlerdeckel lag oben auf dem Behälter.
  In Wirklichkeit müsste er auf dem Kühler sitzen.
  Jemand, der sich auskennt, findet an jeder Stelle Fehler, aber für jemanden ohne Vorwissen sieht es ziemlich glaubwürdig aus — genau wie bei LLMs.
- Ich hatte einen Mac Pro 5,1 komplett zerlegt auf dem Schreibtisch liegen und ließ mir ein internes Diagramm dazu erstellen.
  Äußerlich sah es MacPro-ähnlich aus, aber alle visuellen Elemente waren falsch.
  Auch der Text wirkte nur auf den ersten flüchtigen Blick richtig, und fast alles, was nach dem Anklicken kam, war ebenfalls falsch.
  Es sah cool aus, aber dass eine AI so konsequent danebenliegt, habe ich seit 2023 nicht mehr erlebt.
- Ich habe "your mom" eingegeben, und es erzeugte eine historische gesellschaftliche Zeitleiste der Mutterschaft mit einer darübergelegten Plazenta.
  Das genehmige ich.
Schönes Projekt, aber ich frage mich bei so etwas immer, woher die Ressourcen und das Geld kommen, um so etwas zu bauen und als öffentlichen Dienst laufen zu lassen.
Vermutlich haben sie eigene GPUs oder nutzen die GPT-/Gemini-API mit subventionierter Enterprise-Inferenz,
aber aus Sicht eines Menschen, der immer sparsam gelebt hat, ist das für mich immer noch schwer greifbar.
- Leider bezahle ich das einfach aus eigener Tasche.
  Ich hatte überhaupt nicht erwartet, dass das derart explodiert.
- Nach einer HN Hug of Death und einer Inferenzrechnung von 50.000 Dollar über Nacht dürfte das wohl bald wieder verschwinden.
- Vielleicht gehört die Person zu einer Universität.
- Wenn man bedenkt, wofür Leute Geld als Hobby ausgeben, ist das gar nicht so ungewöhnlich.
  Die einen geben Geld für Spiele, Malen oder Holzarbeiten aus,
  andere stecken ihr Freizeitbudget aus einem FAANG-Gehalt lieber in ein GenAI-Art-Projekt statt in Alkohol oder Sport.
  Es muss nicht der eigene Geschmack sein, aber Ausgaben, die für andere luxuriös wirken, hat praktisch jedes Budget irgendwo.
- Aus ähnlichen Gründen wollte ich es selbst gar nicht erst versuchen.
  Hier nennt man das immigrant mentality, nicht abwertend, sondern eher diese Sparsamkeit, die Menschen haben, die ihr Leben von null neu aufbauen mussten.
  Außerdem war es extrem langsam, sodass ich am Ende gar nicht gewartet habe.
  Das ist kein Vorwurf an die Person, die es gebaut hat, es war einfach wirklich zu langsam.
Zuerst dachte ich, das würde nicht nur Diagramme erzeugen, sondern die Webseite selbst in Echtzeit generieren.
Ich fand die Zukunft schon immer spannend, in der Anwendungen spontan für die Bedürfnisse der Nutzer gebaut werden,
und frage mich, ob es dafür schon echte Umsetzungen gibt.
Es kam ein Mac Neo heraus, mit 2 M4-Quantum-Chips, solid state battery und graphene connector.
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Sneed's Feed and Seed kam heraus. Es stand auch dabei: Formerly Chuck's.
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
- Ich habe versucht, die Besitzhistorie nachzuverfolgen, und am Ende wurde der Nachname einfach zu Chuck's Feed and Seed.
  Wenn es das korrekt getroffen hätte, wäre ich wirklich beeindruckt gewesen.
- Ehrlich gesagt einer der besten Simpsons-Witze überhaupt.
Scheint nicht in den Trainingsdaten enthalten zu sein.
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
Die Idee ist interessant, aber im Moment scheitert fast alles.
Vermutlich wegen der HN Hug of Death.
Es erscheint Gemini generateContent request failed zusammen mit 429 RESOURCE_EXHAUSTED,
und dann der Hinweis, dass das aktuelle Kontingent überschritten wurde und man Tarif sowie Abrechnungsdaten prüfen soll.
Ein Link mit detaillierten Limit-Informationen wird ebenfalls angezeigt.
Die Demo auf der Startseite zeigte Paris Travel Overview / Visiting Notre Dame,
also habe ich es mit ein paar Städten und Orten getestet, an denen ich tatsächlich war.
Die Points of Interest selbst wurden oft richtig erkannt, aber ihre räumlichen Lagebeziehungen zueinander waren völlig durcheinander.
Mit der Realität hatte das überhaupt nichts zu tun.
So etwas wirkt wie ein ziemlich teures Produkt, um von einer HN Hug of Death getroffen zu werden.
Die in Tweets geposteten Beispielvideos sahen wirklich großartig aus.
Gerade funktioniert es allerdings nicht gut, also werde ich warten, bis der Traffic etwas nachlässt, und es in ein paar Tagen noch einmal versuchen.

Flipbook – eine Website, die direkt aus dem Modell live gestreamt wird

Überblick

Funktionsweise und Ausbau

Verwandte Beiträge

3 Kommentare

Hacker-News-Kommentare