9 Punkte von xguru 2024-02-19 | 2 Kommentare | Auf WhatsApp teilen
  • Kaum jemand liebt Arbeitssoftware
    • Auch Top-Produkte sind in der Praxis oft nicht flexibel oder ausgefeilt genug, haben eine steile Lernkurve und sind schwer zugänglich
  • Generative KI bietet die Chance, Workflows vollständig neu zu erfinden, sodass völlig neue Produkte von Grund auf möglich werden
  • AI-native Workflows helfen Nutzerinnen und Nutzern, bestehende Aufgaben effizienter zu erledigen
  • Solche Plattformen delegieren niederstufige Aufgaben an KI-Assistenten, damit mehr Zeit für höherwertiges Denken bleibt
  • Sie helfen, neue technische und ästhetische Fähigkeiten freizusetzen, sodass jeder zum Programmierer, Produzenten, Designer oder Musiker werden kann
    • Die Lücke zwischen Kreativität und Technik schrumpft
    • Mit KI-basierten, „professionellen“ und zugleich benutzerfreundlichen Produkten kann jeder zum Prosumer der nächsten Generation werden
    • (Prosumers sind Menschen, die Produzenten- und Konsumentenrollen zugleich übernehmen; der Begriff wurde von Alvin Toffler in „The Third Wave“ geprägt)

Wie könnten GenAI-native Prosumer-Produkte aussehen?

  • Allen GenAI-nativen Workflow-Produkten ist gemeinsam, dass sie „State-of-the-art-Modelle in eine zugängliche, wirksame UI" umsetzen"
  • Nutzer interessieren sich weniger für die Infrastruktur hinter dem Produkt und mehr dafür, wie das Produkt hilft
  • Der technische Sprung durch GenAI ist beeindruckend, aber erfolgreiche Produkte starten weiterhin mit einem tiefen Verständnis für Nutzer und deren Problemfelder
  • Erfolgreiche Produkte setzen auf
    • ein tiefes Verständnis der Schmerzpunkte der Nutzer
    • die Abgrenzung dessen, was durch KI abstrahiert werden kann
    • die Entscheidungspunkte, die menschliche Freigabe brauchen
    • die Hebelpunkte mit dem größten möglichen Impact

Hauptfunktionen von GenAI-nativen Prosumer-Produkten

  • Tools, die das Problem der leeren Seite lösen
    • Generierung von Medien aus Natural-Language-Prompts, um den ersten Einstieg zu erleichtern
    • Durchführung mit proprietären Modellen oder durch Kombination mehrerer Modelle
    • Beispiel: Vizcoms Rendering-Tool, Durable Website Builder
  • Multimodale (und multimediale) Kombination
    • Viele kreative Projekte benötigen mehr als zwei Inhaltsarten: Bild und Text, Musik und Video, Animation und Sprecherkommentar, usw.
    • Derzeit gibt es kein einzelnes Modell, das all diese Asset-Typen erzeugen kann
    • Daraus entsteht die Chance für Workflow-Produkte, in denen Nutzer an einem Ort verschiedenste Inhaltsarten erzeugen, verbessern und kombinieren können
    • Beispiel: HeyGen-Avatar (Erzeugung realistischer Avatare durch Kombination eigener Avatare mit dem TTS von ElevenLabs)
  • Intelligenter Editor für mehr Iteration
    • "Auf einen Schlag" erhält man fast nie ein finales Ergebnis
    • Bei KI mit inhärenter Zufälligkeit trifft das noch stärker zu: Beim ersten Lauf ist es selten, genau das Gewünschte zu erhalten
    • Den Regenerate-Button zu drücken oder den Prompt zu verändern ist wichtig, aber zeitaufwendig und oft frustrierend
    • Die erste Welle KI-generierter Produkte erlaubte praktisch keine Iterationen; derselbe Prompt lieferte bei erneutem Start völlig andere Resultate
    • Nun entstehen erstmals Funktionen, mit denen man bestehende Outputs laden und verfeinern kann, ohne komplett neu zu starten
    • Beispiel: Midjourney-Variations- und Zoom-Werkzeuge, Pika-Bereichsänderungsfunktion
  • Refinement innerhalb der Plattform
    • Ein weiterer wichtiger Bestandteil intelligenter Bearbeitung ist Refinement
    • Die letzten 10 Prozent des Polierens machen oft den Unterschied zwischen „gut“ und „ausgezeichnet“
    • Aber es kann schwierig sein, (1) zu erkennen, was zu verfeinern ist, und (2) dies zu tun, ohne den Kontext zu wechseln
    • KI-Workflow-Produkte helfen, Dinge zu identifizieren, die verbessert werden können, und anschließend automatisch zu verbessern
    • Vergleichbar mit Apples „automatischem Retuschieren“ für Fotos, nur dass es für alles gelten soll
    • Beispiel: Krea-Upscaling, ElevenLabs Audiobook-Workflow
  • Remix- und transformierbarer Output
    • Jeder Inhalt kann ein möglicher „Ausgangspunkt“ für eine weitere Iteration sein
    • Wer schon einmal in Midjourney oder ChatGPT Prompts anderer Menschen kopiert und angepasst hat, hat bereits daran teilgenommen
    • Plattformen, die diese Flexibilität gut nutzen, können stärkere, „hängenbleibendere“ Produkte schaffen
    • Für Erstproduzenten ist der große Wert, dass sie Arbeiten über Medien hinweg umwandeln können, etwa Video in einen Blogbeitrag oder eine Textanleitung in ein Erkläranimationsvideo
    • Beispiel: Kernfunktion der Gamma-Publishing-Plattform – Erstellung von Decks, Dokumenten oder Webseiten aus Prompts oder hochgeladenen Dateien und bei Bedarf Umformatierung
    • Mit diesen Produkten können Nutzer auch Workflows offenlegen, damit andere sie wiederholen können
      • Das kann eine Abfolge aus Prompts oder Modellkombinationen sein oder ein „Copy“-Button, mit dem Nutzer mit geringerem Technikniveau Ausgabe oder Ästhetik nachahmen können
    • Beispiel: Imagen AI als Bearbeitungsplattform für professionelle Fotografen:
      • Es ermöglicht, Modelle nach dem individuellen Stil jedes Fotografen zu trainieren, damit der Batch-Editing-Aufwand sinkt
      • Außerdem können Nutzende auf der Plattform mit den Profilstilen der besten Fotografen der Branche bearbeiten

Wie werden Prosumer-Produkte weiterentwickelt?

  • Prosumer-Tools der nächsten Generation sind noch in einem frühen Stadium
  • Die Kernfunktion der Asset-Erstellung in bestehenden Tools ist endlich stark genug, um sinnvolle Workflows zu ergänzen, aber die meisten Produkte fokussieren sich weiterhin auf nur einen Inhalts-Typ und sind funktional stark eingeschränkt
  • Erwartete Produkte
    • Editierwerkzeuge, die verschiedene Inhaltsmodalitäten kombinieren
      • Video könnte dafür ein herausragendes Beispiel sein
      • Wer heute mit KI einen Kurzfilm erstellen möchte, muss in Produkten wie Pika oder Runway mehrere Clips erzeugen und diese dann für Schnitt oder Sound-Mixing auf Plattformen wie Capcut oder Kapwing wechseln
      • Wie wäre es, wenn alle Schritte dieses Workflows auf einer Plattform möglich wären?
      • Von einigen Produkten der nächsten Generation wird erwartet, dass sie durch eigenes Modelltraining, Open-Source-Modelle oder Partnerschaften mit anderen Playern zusätzliche Workflow-Funktionen erhalten und auf weitere Inhaltsarten ausweiten
      • Außerdem könnte es neue eigenständige AI-native Editoren geben, in die Nutzer verschiedene Modelle als Plugins einbinden können
    • Produkte, die andere Interaktionsmodi nutzen
      • Textprompts sind nicht immer der effektivste Weg, mit KI-Produkten zu interagieren
      • Wie bei einem menschlichen Brainstorming-Partner sollte man genauso mit Sprache, Skizzen oder dem Teilen von Referenzfotos zusammenarbeiten können
      • Vor allem wird viel von Sprache erwartet, weil Nutzer komplexere Gedanken teilen können oder sich so geordnet reden, wie es in Text nicht möglich ist
      • Produkte wie Oasis, TalkNotes und AudioPen, die Sprachmemos in E-Mails, Blogbeiträge oder Tweets umwandeln, sind bereits am Markt
      • In Zukunft wird in mehr Workflow-Produkten Audio und Video als Eingabequelle bereitgestellt, sodass sich die Art und der Zeitpunkt, wie Nutzer ihre Arbeit erledigen, ändern
    • Produkte, die KI- und menschlich erzeugte Inhalte gleichwertig behandeln
      • Es wäre wünschenswert, ein Werkzeug zu haben, mit dem KI- und Menscheninhalte nebeneinander genutzt werden können. Die meisten Produkte fokussieren sich heute auf eins davon
      • Beispiel: Manche sind hervorragend darin, echte Fotos zu retuschieren, können aber mit KI-Bildern nichts anfangen
      • Oder sie können neue Videos erzeugen, aber keine Clips auf dem iPhone korrigieren oder den Stil verändern
      • Zukünftig werden die meisten professionellen Content-Produzenten KI- und Menscheninhalte kombinieren
      • Die von ihnen genutzten Produkte müssen beide Inhaltsarten unterstützen und deren Kombination deutlich erleichtern
      • Das zeigt der Editor von Runway sehr gut
        • Dort können Clips und Bilder aus dem eigenen Generationsmodell geladen und echte Assets hochgeladen werden, um sie in derselben Timeline zu nutzen
        • Anschließend können die „magischen Werkzeuge“ des Unternehmens wie Inpainting und Green Screen auf beide Inhaltsarten angewendet werden
  • Die hier fokussierten Workflow-Produkte rund um Inhalte sind nur ein wichtiger Baustein in der Zukunft von Prosumer-Software
  • Als Nächstes wird der zweite zentrale Baustein, Produktivitätswerkzeuge, genauer betrachtet und erneut auf Produkte geschaut, die auch im KI-Zeitalter wiedergeboren werden könnten

2 Kommentare

 
savvykang 2024-02-19

Als Alleinstellungsmerkmal für KI-Prosummer-Produkte wird die Kombination von Workflows genannt, was ich für dieselben Grenzen und dieselbe Essenz wie bei klassischen Low-Code-Plattformen halte.

Nicht jede Aufgabe, die Praktikern übertragen wird, besitzt eine Komplexität, die sich vollständig per Low-Code steuern lässt; oft ist die Aufgabe selbst so komplex, dass es besser ist, die Komplexität mit professionellen Programmierkenntnissen zu beherrschen, als sie mit einer Low-Code-Plattform zu lösen. Wenn man Programmierung mit dem Aufbau elektronischer Schaltungen vergleicht, entspricht eine Low-Code-Lösung einem Breadboard. Ein Breadboard ermöglicht es, einen funktionierenden Elektronikschaltkreis provisorisch zusammenzubauen, um einen Prototypen zu testen, aber in der gleichen Weise kann man auf einem Breadboard kein zuverlässiges integriertes Schaltkreis-Design erstellen.

 
savvykang 2024-02-19

Überträgt man das auf die Content-Erstellung, könnte man Sorge haben, dass die Präzision und Sorgfalt der Ergebnisse aufgrund der Grenzen KI-generativer Werkzeuge nicht vollständig kontrollierbar sind. So wie es bei den aktuellen KI-Bildern zu sehen ist, die manchmal selbst Finger nicht korrekt darstellen. Die Lernkurve wird zwar sinken, aber wahrscheinlich nicht so dramatisch.