4 Punkte von kokogo 2026-02-19 | 5 Kommentare | Auf WhatsApp teilen

Derzeit habe ich eine Funktion entwickelt, die einen Nachrichten-/Informationssammeldienst für 32 Länder sowie tägliche Snapshots wichtiger Länder (USA, Japan, Großbritannien, Korea) und der Coin-/Futures-Märkte über MCP (Model Context Protocol) bereitstellt. Auf dieser Grundlage entwickle ich aktuell ein Investment-Programm, das ähnlich wie OpenClaw frei agieren kann.

Ich denke dabei über zwei Punkte nach.

  1. Koexistenz von „Freiheitsgrad“ der KI und Frontend-UI
    Ich setze es so um, dass wie bei bestehender Software zunächst eine festgelegte UI und definierte Funktionen bereitgestellt werden, diese einzelnen Funktionen aber zugleich als APIs verfügbar sind, damit IDEs oder KI sie vollständig verstehen und steuern können. Letztlich glaube ich, dass sich die zukünftige Softwareentwicklung darauf konzentrieren wird, wie frei KI Funktionen erweitern und ausführen kann, also auf den „Freiheitsgrad der KI“. Mich interessiert, wie ihr das seht.

  2. Wandel der User Experience: das Zeitalter von „Mach das mal“
    Nutzer werden künftig erwarten, mit einem einfachen Befehl wie „Mach das mal“ das gewünschte Ergebnis zu erhalten. Selbst bei Funktionen, die Entwickler nicht im Voraus definiert haben, sollte die KI meiner Ansicht nach direkt im Internet suchen oder Code schreiben, um die Bedürfnisse der Nutzer zu erfüllen. (Beispiel: Selbst ein juristisches Programm sollte, wenn der Nutzer es möchte, auf dem Niveau helfen können, einen Flug zu buchen.)

Wenn Technologie den Nutzern maximalen Komfort bieten soll, wie weit sollten wir Entwickler dann über keine „geschlossenen Funktionen“, sondern über „offene Erweiterbarkeit“ nachdenken? Seit dem Auftreten von Agenten wie OpenClaw beschäftigt mich diese Frage immer stärker.

5 Kommentare

 
pjoonmo79 2026-04-05

Ich teste gerade Fall 1.
Dadurch häufen sich Erfahrungen des Scheiterns, sodass es anfing, sich selbst Beschränkungen aufzuerlegen.

 
pjoonmo79 2026-04-05

Zur Referenz: Ich bin derzeit in der Phase, Halluzinationen als Engine zur Erkundung des Pfadkanals zu nutzen.

 
runableapp 2026-03-27
  1. Da UI und API in den meisten Fällen bereits voneinander getrennt sind, scheint das auch bei einer künftig stärker AI-zentrierten Entwicklung kein allzu großes Problem zu sein. Ich denke, die Erweiterung von Funktionen hängt davon ab, aus welcher Perspektive man sie betrachtet --
    (a) die bestehenden Funktionen einer App weiter auszubauen
    (b) Funktionen zu erweitern, indem man APIs verschiedener bereits erprobter Dienste kombiniert, die zuvor von „Menschen“ erbracht wurden

Bei (a) habe ich derzeit noch nicht genug Vertrauen, AI die Funktionen nach Belieben erweitern zu lassen.
(b) ist kontrollierter, daher ist das immerhin etwas besser.

  1. Dass man einfach sagt „Mach das“, ist aus Sicht der Verbraucher letztlich etwas, worauf ich hoffe (wie im Film Her), aber wenn man sich verschiedene Fälle ansieht, ist es noch beunruhigend, das einfach völlig frei geschehen zu lassen.

Ich glaube aber absolut nicht, dass „eine Rechtssoftware Flugtickets bucht“. Dann ist es keine Rechtssoftware mehr. Dann wäre es eher ein allgemeines Her-OS. So wie es Gründe gibt, warum Menschen Organisationen und Verantwortung aufteilen, gibt es meiner Ansicht nach auch Gründe dafür, warum Programmierung und Architektur so aufgeteilt wurden. Die Idee, dass ein System meine Wünsche wirklich versteht und all solche Dinge genau nach meinem Geschmack erledigt, erinnert an das Konzept eines digitalen Klons.

„Mach das“ bedeutet, dass es wie eine persönliche Assistenz ist, die mich über lange Zeit kennt, sodass ich Dinge nicht mehr konkret und im Detail erklären muss (wie beim derzeit oft erwähnten spec-driven Ansatz). Dafür müsste jedoch alles über mich gescannt, Wissen aufgebaut und gespeichert werden, und selbst dann passieren am Ende Fehler (auch in Her gibt es am Anfang eine Szene, in der die E-Mails und alle Daten des Nutzers überprüft werden) -- entscheidend ist dann, wie gut solche Fehler erkannt und herausgefiltert werden und ob man sie auch korrigieren kann; aber davon sind wir wohl noch weit entfernt. Wenn Sie schon einmal mit Menschen gearbeitet haben, wissen Sie das: Selbst Personen, die 10 oder 20 Jahre mit mir zusammenarbeiten, verstehen meine Absicht nicht immer genau, und Menschen ohne Gespür merken es weiterhin nicht und machen Fehler ... Wenn schon Menschen so sind, dann sollte man meiner Meinung nach zuerst AI wie momento, die zudem keine Verantwortung trägt, überhaupt erst auf dieses menschliche Niveau bringen.

Es wäre gut, wenn es in die von Ihnen erwähnte Richtung offener Erweiterbarkeit ginge, aber dafür müsste es eine allgemeine persönliche Assistenz-AI sein (damit, wie jemand oben schrieb, der Toaster nicht plötzlich andere Dinge tut), und sie müsste den Nutzer durch Interaktion kontinuierlich weiter kennenlernen. Ich möchte nicht, dass ein Auto eine Steuererklärung erstellt. Bei Menschen ist es genauso: Wenn man einem Mitarbeiter eine bestimmte Aufgabe gibt und er dann auch noch andere Dinge macht, freut sich der Arbeitgeber vielleicht, aber die meisten würden sich wohl eher Sorgen machen.

 
mammal 2026-02-19
  1. Klare Dokumentation und gut gestaltete Zugänglichkeit setzen sich am Ende durch. Auch ohne den Fokus unbedingt auf den Freiheitsgrad von KI zu legen, ist gut gestaltete Zugänglichkeit sowohl für Menschen als auch für KI leicht verständlich.

  2. Nein, das Prinzip der minimalen Rechte muss unbedingt eingehalten werden. Ich möchte, dass mein Toaster einfach nur Brot toastet, und nicht ins Internet geht, Nachrichten zusammenfasst und Doom startet.

 
jeeeyul 2026-02-19

Philosophisch würde ich Ihnen die Theorie des erweiterten Geistes von Andy Clark empfehlen. Sie wird Ihnen ein tiefes Verständnis dafür geben, wie sich LLMs, bei denen Plausibilität alles ist, durch Werkzeuge kognitiv erweitern.

Praktisch dürfte OpenCode hilfreich sein, weil dort alle Teile der Agenten-Konfiguration offengelegt sind.

Punkt 2 ist bereits Realität. Eines der allerersten bereitgestellten Werkzeuge war der Code-Interpreter. Daher ist meine Meinung zu domänenspezifischen Agenten letztlich, dass es sich um einen kurzfristigen Kampf handelt, der verschwinden wird.

Für die Domäne, in der Sie gerade arbeiten, denke ich, dass es nicht besser wäre, traditionelles ML über MCP bereitzustellen. Für Musteranalyse oder lineare Vorhersage sind Sprachmodelle überhaupt nicht im Vorteil.

Es scheint nicht nötig zu sein, die Tool-Symmetrie unbedingt auf Basis menschlicher UI zu entwerfen. Automatisierte MCPs auf Basis von webMCP oder GDI, bei denen der Agent die UI selbst direkt interpretiert und steuert, werden ohnehin sehr bald kommen. Schließlich wird man unzählige Legacy-Systeme für Menschen nutzen müssen. Bei LLM-basierten Agenten mit nativer Multimodalität müsste sich der Entwickler dann nicht extra die Mühe machen, eine GUI in MCP zu übersetzen. Bei iOS, das eine starke Kontrolle über die Foundation-GUI hat, könnte das vielleicht schon in der nächsten Version beginnen.

Dann könnte man einfach irgendeine Aktien-App installieren und dem Agenten die Investitionen überlassen.