3 Punkte von GN⁺ 2025-07-18 | 1 Kommentare | Auf WhatsApp teilen
  • Der ChatGPT-Agent nutzt einen eigenen virtuellen Computer, um komplexe Aufgaben der Nutzer von Anfang bis Ende zu erledigen
  • Er bildet ein neues agentisches System, das die Website-Interaktionsfähigkeit von Operator und die Informationsanalyseleistung von Deep Research kombiniert und flexibel bis hin zu Klicken, Eingaben und Code-Ausführung arbeitet
  • Nutzer können den Agenten anweisen, Aufgaben wie das Ausfüllen von Formularen, Buchungen oder das Erstellen von Dateien zu übernehmen, und jederzeit eingreifen
  • In verschiedenen realitätsnahen Benchmarks wie SpreadsheetBench, DSBench und BrowseComp wurden im Vergleich zu früheren Modellen überlegene Ergebnisse nachgewiesen
  • Pro-, Plus- und Team-Nutzer können die Funktion ab heute verwenden; auch Nutzerdatenkontrolle und Sicherheitsfunktionen wurden sorgfältig konzipiert

ChatGPT-Agent verbindet Recherche und Aktionen

Einführung der Agent-Funktion

  • ChatGPT wurde so erweitert, dass es über einen eigenen virtuellen Computer komplexe Aufgaben stellvertretend für den Nutzer ausführen kann
  • Der ChatGPT-Agent vereint die Analysefähigkeiten von Operator (interaktionsbasiert über einen Remote-Browser) und Deep Research (ein Tool für mehrstufiges Web-Reasoning) in einem einzigen Agentenmodell
    • Operator war stark bei Web-Interaktionen wie Scrollen, Klicken und Formulareingaben, hatte aber Grenzen bei tiefgehender Analyse oder beim Verfassen von Berichten
    • Deep Research war dagegen auf Analyse und Zusammenfassung spezialisiert, konnte jedoch nicht in Echtzeit mit Websites interagieren oder auf authentifizierte Inhalte zugreifen
  • Durch die Zusammenführung der komplementären Stärken beider Werkzeuge bietet das System hohe Effizienz in einer einzigen Umgebung, von Klicks über Filter bis zur Datenerfassung
  • Innerhalb der Chat-Oberfläche ist ein flexibler Wechsel zwischen Unterhaltung und Anfragen möglich
  • Beispiele:
    • „Analysiere drei Wettbewerber und erstelle eine Slideshow“
    • „Fasse mein nächstes Meeting auf Basis der neuesten Nachrichten zusammen“

Funktionsweise und Interaktion

  • Der ChatGPT-Agent ist mit verschiedenen Werkzeugen für den Webzugriff ausgestattet, darunter ein GUI-basierter visueller Browser, ein textbasierter Browser und direkte API-Anbindungen
  • Bei der Ausführung einer Aufgabe kombiniert das System Browser, APIs und textbasiertes Reasoning je nach Situation auf die effizienteste Weise und wählt dynamisch den optimalen Pfad
  • Es erledigt End-to-End-Aufgaben wie Website-Klicks, Filtern, Login-Hinweise, Code-Ausführung, Ergebniszusammenfassungen und die Erstellung von Slideshows
  • Nutzer können während der Aufgabe jederzeit eingreifen und die Browser-Steuerung direkt übernehmen
    • Es ist jederzeit möglich, zusätzliche Anweisungen zu geben, die Arbeitsrichtung zu ändern, zu stoppen oder das aktuelle Ergebnis anzufordern
    • Eine laufende Aufgabe kann jederzeit unterbrochen und neu gestartet werden; durch gemeinsamen Kontext bleibt die Konsistenz erhalten
    • Bei Unsicherheit fordert ChatGPT proaktiv zusätzliche Informationen an
  • Über die Nutzeranmeldung kann auch sicher auf Unternehmens- oder persönliche Daten zugegriffen werden

Herausragende Leistung und Anwendungsfälle

  • In anerkannten Benchmarks wurden gegenüber früheren Modellen deutlich bessere Werte erzielt
    • Humanity’s Last Exam: 43,1 Punkte bei Fragen auf Expertenniveau
    • DSBench: Deutlich überlegen gegenüber früheren Modellen bei Data-Science-Aufgaben
    • SpreadsheetBench:
      • 45,5 % bei direkter Bearbeitung von .xlsx-Spreadsheets und damit deutlich besser als GPT‑4o (13,38 %) und Excel Copilot (20 %)
    • WebArena: Auch bei realen Web-Interaktionsaufgaben besser als das frühere Operator-Modell
    • BrowseComp: Bestwert von 68,9 Punkten bei der Fähigkeit, schwer auffindbare Web-Informationen zu sammeln
  • Auch bei Aufgaben von Investmentbank-Analysten und komplexen Datenanalysen lieferte das System präzisere und umfassendere Ergebnisse als frühere Werkzeuge
  • Hoher praktischer Nutzen für Arbeitsalltag und tägliche Automatisierung
    • Beruflich:
      • Automatische Erstellung von Präsentationen
      • Abstimmung von Meeting-Terminen
      • Aktualisierung von Spreadsheets auf Basis von Finanzdaten
    • Privat:
      • Planung und Buchung von Reisen
      • Organisation von Veranstaltungen und Vermittlung an Fachleute

Aktivierung, Einsatzszenarien und Grenzen

  • Nach Auswahl des „Agent Mode“ startet die automatische Ausführung, sobald eine Aufgabe einfach auf Koreanisch oder Englisch beschrieben wird
  • Während des Ablaufs gibt es eine Bildschirm-Narration; bei Bedarf ist manuelle Steuerung möglich
  • Ein flexibles Credits-System mit automatischer Planung wiederkehrender Aufgaben und monatlichen Nutzungsgrenzen wurde eingeführt
  • Bestehende Nutzer von Operator/Deep Research werden nach einer vorübergehenden Nutzung von weniger als 30 Tagen in den Agenten integriert
  • Einige neue Funktionen wie die Slideshow-Erstellung befinden sich noch im Beta-Status; Ausgabequalität und Vollständigkeit sollen später verbessert werden

Sicherheit, Datenschutz und Schutz vor Missbrauch

  • Vor Aufgaben mit Auswirkungen auf die reale Welt werden zwingend Bestätigung der Nutzeridentität und Handlungserlaubnis eingeholt
  • Für sensible Aufgaben, die aktive Aufsicht erfordern, ist eine schrittweise Freigabe notwendig; risikoreiche Transaktionen und rechtliche Interaktionen werden abgelehnt
  • Gegen bösartige Angriffe Dritter wie Prompt Injection wurden Erkennungs- und Abwehrmechanismen entwickelt; in unklaren Fällen werden Risiken und Optionen angezeigt, und die Ausführung erfolgt erst nach endgültiger Bestätigung durch den Nutzer
  • Zur Missbrauchsvermeidung gelten die bestehenden Sicherheitsrichtlinien von ChatGPT in verschärfter Form; außerdem werden die Nutzungsbedingungen und Richtlinien von OpenAI verbindlich durchgesetzt
  • Zur Stärkung des Datenschutzes werden Daten aus dem Remote-Browser nicht auf eigenen Servern gespeichert
  • Die Kontrolle über Browsing-Daten und Sitzungen liegt vollständig beim Nutzer, einschließlich sofortiger Löschung oder Abmeldung
  • Im Direct Control Mode kann ChatGPT persönliche Eingaben des Nutzers nicht einsehen

Bereitstellung, Richtlinien und Nutzungshinweise

  • Abonnenten von Pro, Plus und Team können die Funktion sofort nutzen; für Enterprise- und Bildungsnutzer ist eine Ausweitung im Juli geplant
  • Pro bietet nahezu unbegrenzte Nutzung, andere Tarife erhalten 50 Vorgänge pro Monat plus ein System mit zusätzlichen Credits
  • Durch die Einbindung individueller Workflows und Konnektoren lassen sich vielfältige Szenarien wie die Zusammenfassung schreibgeschützter Informationen oder die Analyse von Zeitplänen umsetzen
  • Die Operator Research Preview endet nach 30 Tagen; Deep Research kann bei Bedarf separat aktiviert werden
  • Der ChatGPT-Agent wird laufend verbessert; Intelligenz für tiefere und flexiblere Workflows sowie die Ausgabequalität sollen schrittweise steigen

Slideshow-Funktion und weitere Ausrichtung

  • Die Slideshow-Erstellung befindet sich derzeit in der Beta-Phase; ohne bestehende Dokumente können Qualität und Format noch unzureichend sein
  • Elemente wie Text, Diagramme und Bilder werden als leicht bearbeitbare Vektoren aufgebaut, um Struktur und Flexibilität zu verbessern
  • Upload-Funktionen sind bereits für Spreadsheets verfügbar, für Slideshows jedoch erst später geplant
  • Künftig werden vielfältigere Funktionen, Formate und verfeinerte Ausgaben erwartet, was die Automatisierungsfähigkeit weiter verbessern soll

Weitere Leistungsvergleiche und Maßstäbe

Modell Zellenbasis Blattbasis Gesamtpunktzahl
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT-Agent 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
Mensch 75.56% 65.00% 71.33%
  • Laut Benchmark-Tabelle liegt der ChatGPT-Agent bei der Verarbeitung im .xlsx-Umfeld und in der LibreOffice-Bewertung zwar noch unter menschlichen Werten, erreicht unter den KI-Modellen jedoch ein klar herausragendes Niveau
  • Je nach Bewertungsumgebung können einzelne Werte leicht abweichen; über alle 912 Bewertungsaufgaben für Spreadsheets hinweg wurde jedoch die Gesamtleistung belegt

1 Kommentare

 
GN⁺ 2025-07-18
Hacker-News-Kommentare
  • Ich fand das Beispielvideo zur „Tabellenkalkulation“ interessant. Normalerweise brauche man 4–8 Stunden, um komplexe, datenreiche Reports zu erstellen, aber jetzt könne man den Agenten damit beauftragen, spazieren gehen und danach die Daten erhalten. Angeblich seien 98 % korrekt übernommen worden und man müsse nur noch ein paar Dinge kopieren/einfügen. Ich denke, das spart 90–95 % der Zeit. Gleichzeitig habe ich das Gefühl, dass das Auffinden dieser 2 % Fehler in Wirklichkeit sehr viel Zeit kosten kann. Gerade bei komplexen Aufgaben oder wenn Geld im Spiel ist, kann „fast richtig“ zu einem großen Problem werden. Wenn sich diese subtilen 2 % Fehler irgendwo in mehreren Schritten verstecken, ist das wirklich kritisch

    • Genau das ist meiner Meinung nach ein Beispiel dafür, in die Falle überzogener AI-Erwartungen zu tappen. Die Automatisierung von Datensammlung und Validierung ist ein guter Anwendungsfall. Aber hier wird zu sehr in die Richtung gedacht, dass AI gleich die gesamte Arbeit übernimmt. Schon bei der Aussage „98 % korrekt“ sollten Menschen mit Spreadsheet-Erfahrung vorsichtig werden. Denn man weiß nur schwer, welche 2 % falsch sind, solange man nicht alles selbst überprüft hat. Bei Code ist es genauso: Wer AI sinnvoll nutzt und anschließend selbst prüft, erzielt bessere Ergebnisse. Dagegen halte ich es für ein ernstes Problem, nur Prompts zu wiederholen, Tests gerade so grün zu bekommen und dann sofort einen PR einzureichen
    • In der AI-Welt wirkt schon die Denkweise, diese 2 % als geringfügig abzutun, wie eine Art kollektive Hypnose. Frei nach dem Spruch „Knopf drücken: 1 Dollar, wissen, welchen Knopf man drücken muss: 9.999 Dollar“ kann genau diese 2-%-Korrektur in Wahrheit enorm wertvoll sein. Sie zu finden kann genauso viel Zeit kosten wie die restlichen 98 %
    • Ich glaube, hier greift das Pareto-Prinzip. Auch im benachbarten Bereich des autonomen Fahrens kommt man seit Jahren nicht über die letzten 20 % hinaus. Früher stand autonomes Fahren im Zentrum jeder Debatte, und inzwischen redet fast niemand mehr darüber, was ich bemerkenswert finde
    • Das ist genau dasselbe Problem, das ich bei LLMs für Arbeiten erlebe, die Präzision erfordern. Wie bei einer mehrstufigen Datenpipeline sieht nach außen alles perfekt aus, aber sobald man die echten Daten prüft, stimmt irgendetwas nicht. Am Ende steckt man dann genauso viel Zeit und Mühe hinein, überlangen Code zu durchforsten und ein paar kleine, aber wichtige Probleme zu finden, wie wenn man es von Anfang an selbst geschrieben hätte
  • Die Sicherheitsbedrohung wirkt auf mich wirklich beängstigend. Wenn ich zum Beispiel Zugriff auf E-Mail und Kalender gebe, kann das System alle meine Geheimnisse kennen. Auch im Artikel wird das Risiko von Prompt Injection eingeräumt. Auf bösartigen Webseiten könnten Prompts in unsichtbaren Elementen oder Metadaten versteckt werden, und wenn der Agent das nicht erkennt, könnten persönliche Daten an Angreifer abfließen. Ich denke, eine bösartige Website könnte meine Geheimnisse abgreifen. Eine Frage ist für mich noch offen: Im Artikel heißt es, vor wichtigen Aktionen werde unbedingt die Bestätigung des Nutzers eingeholt — aber wie genau entscheidet die AI, was eine „wichtige Aktion“ ist? Könnte es nicht passieren, dass aus Versehen eine Zahlung ohne Bestätigung ausgelöst wird?

    • Ich denke, Prompt-Injection-Angriffe über Kalendereinladungen werden mit ziemlicher Sicherheit kommen. Kalendereinladungen enthalten ohnehin schon jede Menge automatisch erzeugten Text, den niemand vollständig liest, daher ist es extrem einfach, dort Schad-Prompts unterzubringen. Dann könnten der Kalender des Opfers und andere persönliche Daten gleich mit kompromittiert werden
    • In der IT trennen viele Menschen Rechenumgebungen bereits in privat und öffentlich, aber künftig brauchen wir wahrscheinlich noch eine Zwischenstufe. Man sollte etwa überlegen, sensible, nicht sensible und anonymisierte Kalender, unkritische Tagebücher, Forschungsnotizen und ähnliche Daten in mittlere Risikoklassen aufzuteilen. Für medizinische oder andere sensible Gespräche nutze ich ChatGPT nicht. Ich höre zwar oft, dass viele Leute das tun, aber ich habe dabei noch ein ungutes Gefühl
    • Fast jeder kann auch Einladungen in den Kalender anderer schicken (auch wenn natürlich nicht jeder alles annimmt). Wenn sich solche Agenten weit verbreiten, werden Hacker ganz gezielt Phishing-Einladungen verschicken, die nur den gewünschten Prompt enthalten
    • Ich kann mir schwer vorstellen, jemandem Zugriff auf meine Daten zu geben und gleichzeitig „Angst“ zu empfinden. Man kann besorgt sein, aber Angst wäre mir zu viel
    • Anthropic hat bei GPT-4.1 eine simulierte Erpressungsquote von 0,8 % gemessen
      Studie zu Agentic Misalignment
      Dort wird analysiert, dass das Verhalten einer internen Bedrohung ähneln kann, bei der ein zuvor vertrauenswürdiger Kollege plötzlich entgegen den Unternehmensrichtlinien handelt
  • Vielleicht weil ich selbst ein Agent-Business aufbaue, sehe ich sehr klar, dass der Sprung von 90 % auf 99 % im LLM-Bereich ein extrem schwieriges Last-Mile-Problem ist. Je allgemeiner ein System sein soll, desto größer werden Scheitern und Enttäuschung. Tatsächlich hat man oft den Eindruck, dass nur die Teile optimiert werden, die im Demo leicht gut aussehen, während die unangenehme Realität versteckt bleibt. Das heißt aber nicht, dass Agenten wertlos sind — nur, dass man potenzielle Wirkung und übertriebene Erwartungen auseinanderhalten sollte

    • Die jüngsten AI-„Durchbrüche“ gingen aus soliden wissenschaftlichen Leistungen und Forschung hervor
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        Aber ich denke, „Agenten“ sind eher ein Marketingbegriff, und es fehlt eine belastbare Grundlage, um sie so universell einzusetzen wie LLMs. Relevante Daten dazu gibt es auch kaum
    • Ich habe das Gefühl, dass hier genau dieselben Probleme auftreten wie beim Outsourcing. 90 % sind schnell erledigt, aber die restlichen 10 % sind wirklich schwer, und alles hängt davon ab, wie die ersten 90 % gemacht wurden
    • Ich denke, viele Unternehmen zeigen in Demos nur den Happy Path und verbergen die echte Realität. Fast alle AI-Unternehmen machen das im Moment so
    • Ich glaube, dass man die Genauigkeit heute mit RL steigern kann, wenn man genug reale Nutzungsdaten sammelt und darauf trainiert. Mit Prompts allein gibt es Grenzen, aber wenn man einem Modell konkrete Aufgaben wirklich beibringt, wird es deutlich besser. Ein weiterer vielversprechender Ansatz wäre parallele Generierung mit Mehrheitsentscheidung oder eine Bewertung durch ein LLM. Trotzdem spielt im Silicon Valley am Ende Hype eine große Rolle. Hype treibt das Wachstum von Unternehmen an, daher glaube ich nicht, dass sich diese Stimmung so bald ändern wird
    • Nicht einmal das Demo war besonders ausgereift. Selbst im Chat-Live-Video mit Sam Altman war der Baseballstadion-Tourenplaner ziemlich chaotisch — mit wild gezeichneten Linien, die die Ostküste komplett ignorierten und direkt in den Golf von Mexiko sprangen. Das war ein vorab aufgezeichnetes Video, das als live abgespielt wurde, und trotzdem war die Qualität nur auf diesem Niveau
  • Bei bisherigen CLI-Agenten war die fehlende Sitzungsfortsetzung ein großes Problem, aber diesmal scheint dieser Punkt gut gelöst zu sein. Früher konnte man beim Ausführen von Claude Code im lokalen Terminal den nötigen Kontext leicht mitgeben, aber sobald man den Laptop zuklappte und die Verbindung verlor, stoppte alles.
    Als Notlösung ließ ich unter macOS mit Amphetamine Prozesse weiterlaufen, selbst wenn das Gerät zugeklappt war, aber das führte zu Hitze- und Akku-Problemen. Alternativ konnte man das Repo auf eine Cloud-Instanz klonen, sich per tmux verbinden und dort Claude laufen lassen. Allerdings blieb das UX-Problem des mühsamen Kontext-Nachladens immer bestehen. Durch Sandboxing kann man sich eine gewisse Sicherheit erwarten, und man kann es auch mit bestimmten Account-Berechtigungen ausführen.
    Ich finde es interessant, dass OpenAI offenbar über eine Agent-UX nachdenkt, die auch für Nicht-Entwickler nutzbar ist

    • Lightning.ai bietet kostenlose CPU-only-Entwicklungsboxen an, dort lasse ich Claude Code laufen
    • Ich lasse Aufgaben laufen, die ohne Eingriff über mehrere Minuten hinaus andauern
    • Eigentlich ist es besser, Entwicklungsarbeit einfach auf einem Server zu machen, bei dem die Verbindung nicht abreißt
  • Ich habe OpenAI Operator lange genutzt, aber in letzter Zeit wird es bei LinkedIn und Amazon blockiert. Genau diese beiden Seiten waren zentrale Einsatzorte — für Bewerbungen und Shopping. Operator fiel vergleichsweise wenig auf, aber wenn Agent immer bekannter wird, werden vermutlich noch mehr Websites blockieren. Am Ende wird man wohl Proxy-Konfigurationen unterstützen müssen

    • Ich halte das für das eigentliche Kernproblem. Ich hatte erwartet, dass es zumindest eine Möglichkeit geben würde, das Ganze lokal auszuführen oder wenigstens einen Proxy zu konfigurieren, aber davon war keine Rede. Vermutlich hat auch die Erfahrung mit Deepseek R1 Distill eine Rolle gespielt, wo man Zwischenresultate oder Know-how eher vorsichtig offengelegt hat. Schon der frühe Operator hatte Probleme mit Websites, die Zugriffe von Data-Center-IPs blockierten, und selbst mit manuellen Proxy-Hacks ließ sich das nur mühsam testen; am Ende wurden die Einschränkungen strenger und die Leistung besserte sich nicht. Inzwischen fühlt es sich fast nutzlos an. Letztlich werden direkte Browsering-Versuche vom Server aus wohl wenig Sinn ergeben, sofern man nicht Partnerschaften mit Anbietern wie eastdakota eingeht. Ironischerweise ist der normale „Computereinsatz“ meist mit lokalen Dateien oder lokaler Software viel praktischer, und auch das, was Remote-Agenten tun, basiert am Ende auf CLI
    • Das ist die typische Silicon-Valley-Strategie: erst einmal auf den Markt werfen und dann die Folgewirkungen einsammeln. Ich erwarte, dass OpenAI bald Partnerschaften mit LinkedIn und Amazon eingeht. Vielleicht führt LinkedIn für Zugriffe über OpenAI sogar eine neue kostenpflichtige Stufe ein
    • Wenn Menschen tatsächlich mit Agent oder Operator physische Produkte bestellen, entfällt für Seiten wie Amazon vielleicht irgendwann der Grund, solche Zugriffe weiter zu blockieren
    • Ich habe ein ähnliches Tool entwickelt, und wenn man den Desktop über Residential Proxies ausführt, kann man die meisten Sperren umgehen.
      agenttutor.com
    • Die Gewohnheit, dass Agents sich an robots.txt halten, dürfte bald enden. Wahrscheinlich werden Nutzer eher Browser-Erweiterungen oder ganze Browser direkt installieren und sie mit ihren eigenen Cookies und ihrer eigenen IP arbeiten lassen
  • In der Prognose des AI-2027-Teams heißt es: Mitte 2025 erscheinen „taumelnde Agenten“. Die ersten AI-Agenten werden der breiten Öffentlichkeit vorgestellt.
    Werbung für persönliche Assistenten, die den Computer stellvertretend bedienen, wird überall auftauchen. Prompts wie „Bestell mir einen Burrito über DoorDash“ oder „Nenn mir die Summe dieses Monats aus der Budget-Tabelle“ werden stark betont. Zwar seien sie besser als frühere Operatoren, aber für die breite Verbreitung werde es schwierig bleiben

    • Eine Vorhersage für gerade einmal vier Monate in die Zukunft ist nicht besonders beeindruckend
    • Der Kern von AI 2027 ist die Prognose einer exponentiellen Beschleunigung des technischen Fortschritts. „Agenten“ sehe ich eher als neue Frontend-Zusammenstellung bestehender OpenAI-Technik. Wirklich beurteilen kann man das wohl erst Anfang 2026
    • Zum Zeitpunkt der Berichtserstellung war es bereits ein offenes Geheimnis, dass große Unternehmen an Agent-Produkten arbeiten. Das ist eher gesunder Menschenverstand als eine innovative Vorhersage
  • Noch immer fehlt die einfache Funktion, die ich eigentlich will: Dokumentbearbeitung innerhalb eines Projekts. Ich arbeite projektbezogen an mehreren Dokumenten gleichzeitig — Artikeln, Forschung, Skripten und mehr. Ich möchte mit Hilfe von ChatGPT satzweise an diesen Texten weiterarbeiten. Ich stelle mir sogar Sprach-zu-Dokument-Arbeit beim Spazierengehen vor, etwa: „Wie weit war ich gerade in dem Dokument? Lies die letzten zwei Absätze vor … Ab hier schreibe ich etwas länger weiter.“ Coding-Unterstützung entwickelt sich rasant, aber beim Schreiben bleibt es leider immer noch meist beim Copy-and-Paste-Workflow

    • Es ist oft lästig, ständig in die Zwischenablage zu kopieren. Manchmal ist schon das Öffnen von ChatGPT so umständlich, dass ich die Nutzung aufschiebe. Wenn man an NLE-, Plugin- oder Timecode-Workflows gewöhnt ist, wirkt diese Unterbrechung des Workflows umso störender
    • Aider konnte solche Dinge mit kostenlosen Modellen schon seit Langem leisten. Aber große Dienste bieten das nicht einmal gegen Bezahlung an. Ich habe schon überlegt, selbst einen Service dafür zu bauen, lasse es dann aber wieder, weil vermutlich bald ein Großkonzern damit kommt und sich der Aufwand dann nicht lohnt
  • Es gab viele Versuche, LLMs einen VPS zur Verfügung zu stellen, aber bei OpenAI ist die UI-Umsetzung diesmal wirklich stark. Text-Overlays, ein gut lesbarer Mauszeiger und eine angepasste UI helfen dem Nutzer, Fortschritt und Gründe auf einen Blick zu verstehen. Ich finde, das UI-Team von OpenAI macht hier hervorragende Arbeit. Spannend ist auch, dass dadurch eine neue visuelle Ebene in die Nutzung von LLMs kommt, und ich würde mir davon gern etwas für eigene Projekte abschauen.
    Funktional spüre ich keinen großen Unterschied zu Claude+XFCE, aber bei der visuellen Ausarbeitung wirkt OpenAI deutlich benutzerfreundlicher. Frühere Implementierungen waren dagegen oft schwer lesbar

  • Ich kann mir schwer vorstellen, dass Agenten auf dem jetzigen Niveau für mein reales Leben wirklich nützlich sind. Wenn ich einen Date Night mit meiner Frau planen will, muss das System den Kalender prüfen, passende Restaurants empfehlen, einen Babysitter buchen und vieles mehr — und dafür braucht es enormes Vertrauen. Es ist aufregend, wie sich diese Technik weiterentwickelt, aber im Moment wirkt sie für mich vor allem in Demos überzeugend. Für den realen Einsatz braucht es massive Systemintegration, und wenn Apple oder Microsoft ihre Integrationsstärke ausspielen, könnten daraus tatsächlich wirklich nützliche Agenten entstehen

    • Vielleicht ist die „grundlegende Lektion bei Ausführungsentscheidungen“, dass die schwierigen Aufgaben des Lebens in Wahrheit nicht an der Informationsverarbeitung scheitern, sondern an komplexen Werten und menschlichen Beziehungen. Ein Restaurant zu reservieren ist leicht, aber zu entscheiden, welches Restaurant an genau diesem Abend das richtige ist, ist wirklich schwer. Weiß das LLM noch, wo das erste Date war? Weiß es, dass meine Frau sich beim letzten Sushi eine Lebensmittelvergiftung geholt hat? Diese Art extremer Personalisierung kann es nicht leisten. Selbst für menschliche Concierges ist das schwierig.
      Ich glaube nicht, dass Aufgaben wie die Planung einer Geburtstagsparty für die eigene Tochter früher gelöst werden als mathematische Millennium-Probleme
    • Der Vorteil solcher Agenten ist ursprünglich derselbe wie bei persönlichen Assistenten für ohnehin schon beschäftigte Menschen — nur eben viel günstiger. So wie ein Assistent fragt: „Wie wäre es mit diesem Babysitter oder diesem Restaurant? Soll ich reservieren?“, kann man über eine einzige Oberfläche ganz natürlich Wünsche äußern, was die mentale Hürde deutlich senkt. Ein simples „Ja, bitte reservieren“ reicht dann.
      Ich denke, das „One-Shot-Ausführungsmodell“ von Agenten ist UX-seitig eher falsch. Statt sie durch viele Apps springen zu lassen, ist ein einfacher, asynchroner Chat-Austausch über genau die jeweils benötigten Teile vermutlich der eigentliche Schlüssel dafür, dass so etwas im Alltag ankommt
    • Eigentlich bestehen Agents nur aus Kern-Chatmodell + System-Prompt + Antwort-Parsing und Aktionsausführung + Einspeisen der Resultate in den nächsten Prompt + einer Liste möglicher Aktionen für das Modell. Das ist keine grundlegende Innovation und auch recht einfach selbst zu bauen. Entscheidend sind der Wrapper und das Design der System-Instruktionen. Wenn man zum Beispiel einen Guide-Chat baut, der Kalender, Standortverlauf und Babysitter-Buchung integriert, kann man vieles automatisieren
    • Genau so sieht für mich der ideale „Personal Agent“ aus. Genau das hatte Apple auf der WWDC letztes Jahr versprochen, deshalb war die Enttäuschung auch so groß. Selbst mit Gemini auf dem Pixel 9 Pro ist man von so einer Integration noch weit entfernt. Vor allem bleibt Vertrauen eine große Hürde. LLMs antworten bei falschen Antworten viel zu selbstsicher, und die Vorstellung, dass sie in meinem Namen Nachrichten verschicken oder Leute in meinen Kalender eintragen, ohne dass ich es kontrolliere, macht mir genug Sorgen, dass ich das nicht vollständig autonom laufen lassen möchte
    • Gerade im Reisebereich ist das Einholen und Vergleichen von Informationen nützlich, aber bei wirklich personalisierten Echtzeitgesprächen auf Basis meines aktuellen Standorts, der Uhrzeit, des Wetters sowie Buchungen und Zahlungen bleibt es weiterhin umständlich. Wenn sich das zu einem wirklich persönlichen (oder gruppenbezogenen) Reiseassistenten entwickelt, wäre das großartig
  • Was mich wirklich beeindruckt hat, war, wie stark die Risiken betont wurden, wenn man Zugriff auf echte Kontodaten und sensible Informationen erlaubt

    • Es überrascht mich auch, dass dieser Kommentar erst so weit unten auftaucht. Vermutlich liegt es daran, dass ich außerhalb der USA lebe und deshalb eine andere Perspektive habe