1 Punkte von GN⁺ 2024-10-24 | 1 Kommentare | Auf WhatsApp teilen
  • PabloNet

  • Ich denke, die Debatte darüber, ob mit dem Internet verbundene KI kreativ sein kann, geht am eigentlichen Problem vorbei. Kunst offenbart die innere Welt, und Technik ist nur ein Teil davon. Es ist bedauerlich, dass Kunst so viel Technik verlangt. Es scheint möglich zu sein, diese beiden Elemente zu trennen. Günstige interpolative Kreativität, die von 8 Milliarden Nicht-Künstlern genutzt wird, könnte neue Weltanschauungen offenlegen.

  • Aus diesem Grund finde ich als jemand ohne besonderes künstlerisches Talent verschiedene KI-basierte Kunstformen äußerst spannend. Vor einigen Monaten begann ich damit, mithilfe von StreamDiffusion einen Webcam-Feed in Echtzeit zu diffundieren. Ziel war es, schöne visuelle Effekte zu erzeugen und neue Emotionen hervorzurufen. Doch die Laptop-Form zerstörte die Illusion. Deshalb habe ich vor Kurzem einen LCD-Rahmen gebaut, den man an die Wand hängen kann, um die illusionsbrechenden Elemente auf ein Minimum zu reduzieren. Der größte Vorteil dieses Setups ist, dass es als permanentes Objekt statt als bloßer Bildschirm einen neuen Interaktionskanal eröffnet.

  • Das Hauptproblem des aktuellen Setups ist die niedrige Bildrate. Ich habe mit TensorRT und Bildkompression die Geschwindigkeit erhöht, aber es gibt weiterhin viel Raum für Verbesserungen.

  • Für Interessierte teile ich, wie man es baut und dazu beitragen kann:

    • Client- und Server-Code verfügbar
    • Server-Hosting über RunPod
    • Der Client läuft auf einem Raspberry Pi 5
    • Verwendung eines 10,1-Zoll-Pi-Bildschirms
    • Verwendung von Infrarotbeleuchtung
    • Verwendung eines normalen Rahmens
    • Verwendung einer Infrarot-Pi-Kamera
    • Verwendung eines Lochstanzers, um ein Loch für die Kamera zu machen (eine Bohrmaschine funktioniert nicht)
    • Experimente mit verschiedenen Vorverarbeitungsfiltern, da ein einfacher Prompt nicht ausreicht. img2img wirkt ohne Vorverarbeitung zu realistisch. Um den in diesem Beitrag gezeigten blauen Picasso-Stil zu erreichen, wurde eine Mischung aus Canny-Kantenerkennung, blauer Einfärbung und Unschärfe verwendet.

Zusammenfassung von GN⁺

  • KI-basierte Kunst zeigt das Potenzial, durch die Trennung von Technik und Kreativität neue Perspektiven zu eröffnen.
  • Die Diffusion eines Webcam-Feeds in Echtzeit mit StreamDiffusion bietet neue Emotionen und visuelle Erfahrungen.
  • Die Installation mit einem LCD-Rahmen eröffnet über einen einfachen Bildschirm hinaus Möglichkeiten als permanentes Kunstwerk.
  • Technische Probleme wie die niedrige Bildrate lassen weiterhin Raum für Verbesserungen.
  • Als ähnliche Projekte mit vergleichbaren Funktionen werden DeepArt.io und RunwayML empfohlen.

1 Kommentare

 
GN⁺ 2024-10-24
Hacker-News-Kommentare
  • Wenn man JPEG-Bytes in Base64 kodiert, vergrößert sich die Payload um etwa 30 % und verbraucht CPU-Zyklen auf Client und Server. Das WebSocket-Protokoll kann Binär-Payloads übertragen, daher ist keine Umwandlung in Text nötig

    • Man könnte in Betracht ziehen, die verlustbehaftete JPG-Komprimierung wegzulassen und rohe RGB-Bytes über das Netzwerk zu senden
    • StreamDiffusion kann durch umfangreiches Batching in der Pipeline hohe Bildraten erreichen. Davon wird hier nicht profitiert, weil der Client jeweils nur ein Frame sendet und dann auf die Antwort wartet
    • SDXL Turbo- und Lightning-Modelle sind bei img2img sehr schnell, aber auf Auflösungen von 512² oder 1024² Pixeln beschränkt. Auf leistungsstarken Consumer-GPUs lassen sie sich in Echtzeit ausführen
  • Kunst legt die innere Welt offen, und Technik ist nur ein Teil davon. Die Vorstellung, eine Fähigkeitslücke sei bloß eine Unannehmlichkeit, wird infrage gestellt

    • Zeichnen oder Musikmachen zu lernen verändert einen selbst und vermittelt, wie angenommen wird, tiefere Lektionen fürs Leben
    • Große Kunstwerke werden nicht von Genies gemacht; Genialität kommt unerwartet. Eine Fähigkeitslücke zu beseitigen nimmt auch diese Gelegenheiten weg
  • Zum künstlerischen Wert wird nichts gesagt, aber als Tool-Sammler gibt es hier einen interessanten Aspekt

    • Um ein Loch in den Karton des Rahmens für die Kamera zu machen, wurde ein Locher verwendet. Ein Bohrer funktionierte nicht
    • Es wird um mehr Details oder eine Erklärung gebeten, warum ein Bohrer bei Karton nicht funktionierte
  • Es wäre cooler, wenn sich die Kamera nicht im Rahmen befände. Einen künstlerischen Spiegel zu betrachten ist etwas langweilig

    • Man könnte bei jemand anderem zu Hause einen zweiten Spiegel bauen und die Kamera des einen Spiegels in den anderen einspeisen, sodass man die "Reflexion" des jeweils anderen sehen kann
  • Kunst wurde immer als etwas verstanden, das Emotionen bewahrt und erschafft. Auch eine Banane an der Wand ist Kunst, und Popmusik ist weiterhin Kunst

    • Diese Erfindung ist definitiv ein Kunstwerk, aber ihre Ausgaben sind es nach dieser Ansicht nicht. Wie Wolken können sie verschiedene Formen annehmen, bleiben aber dennoch durchschnittliche Zufälligkeit
  • Es wird gefragt, ob über einen hochfrequenten Morphing-Effekt zwischen Bildern nachgedacht wurde. Das würde die effektive Bildrate erhöhen und gut aussehen

  • Das Hauptproblem des aktuellen Setups ist die niedrige Bildrate. Das wird als Feature gesehen; es ist nicht schlecht, Zeit zur Verarbeitung der Bilder zu haben

    • Die Aktualisierungsfrequenz könnte auf 5 bis 15 Minuten erhöht werden, und jedes Mal, wenn eine Veränderung oder Bewegung erkannt wird, würde ein neues Bild aufgenommen und erzeugt
  • Es wird ein Preis für den stromhungrigsten Spiegel vergeben. Es wurde festgestellt, dass das Bild bei kleinen Änderungen der Eingabe nicht stabil bleibt

  • Es wird gefragt, ob es eine Möglichkeit gibt, bestimmte Bilder festzuhalten. Manche Bilder würden sich gut zum Behalten eignen (z. B. Profilbild oder Sperrbildschirmfoto)