Mozillas Widerspruch gegen die Prompt API von Chrome
(github.com/mozilla)- Die Prompt API, die browserinterne Sprachmodelle als Web-API bereitstellt, kann in allgemeiner Form nützlich sein, fördert aber Implementierungen, die auf modellspezifisches Verhalten zugeschnitten sind, und erhöht damit das Risiko für Interoperabilitätsprobleme
- Wenn Entwickler Prompts und Funktionen auf eine konkrete Implementierung wie Edges Phi-4-mini abstimmen, kann es in anderen Browsern oder Modellen zu Qualitätsverlust oder gesperrtem Website-Zugriff kommen
- Mozilla ist der Ansicht, dass vor einer direkten Auslieferung als Web-API zunächst mehr Validierung im Userland erfolgen sollte, und sieht die trial web extension API sowie den web-extension-Vorschlag der Web Machine Learning Group als frühe Kanäle für Feedback
- Wenn sich System-Prompts verbreiten, die auf die quirks eines bestimmten Modells abgestimmt sind, können auch neue Modelle schlecht wirken, und Browser könnten unter Druck geraten, Google-Modelle oder quirk-kompatible Modelle einzubauen
- Chrome nennt als Gegenmaßnahmen JSON-Schema- und regex-basierte Antwortbeschränkungen, Diskussionen in der WebML CG und Experimente mit alternativen Modellen, dennoch ist Mozillas Position zur Prompt API als negative markiert
Mozillas negative Bewertung der Prompt API
- Die Prompt API wurde nach dem intent-to-prototype von Blink in Mozillas standards-positions geprüft; der Explainer verweist auf das README von webmachinelearning/prompt-api
- Mozillas Feedback ist fast identisch mit Writing Assistance APIs #1067: Eine Prompt API in allgemeiner Form kann nützlich sein, fördert aber modellspezifisches Verhalten und vergrößert damit das Risiko für Interoperabilität
- Entwickler können Prompts und Funktionen auf ein bestimmtes Modell zuschneiden; wenn sie auf Implementierungen wie Edges Phi-4-mini zielen, kann die Qualität in anderen Browsern oder Modellen sinken oder der Zugriff auf die Website blockiert werden
- Statt direkt als Web-API auszuliefern, sollte die Funktion länger im Userland validiert werden; Mozillas trial web extension API und der web-extension-Vorschlag der Web Machine Learning Group dienen dabei als Wege für frühes Feedback
- Auf Basis der zugehörigen Diskussion und #1067 ist die Position zur Prompt API als negative markiert
Warum Web Extensions gegenüber Origin Trials bevorzugt werden
-
Modellauswahl und Timing der Standardisierung
- Die Funktion, ein genaues Modell aus einem Model Hub auszuwählen, gilt als zentral, weil sie eine Seiteneigenschaft ist und der Browser dabei kein bestimmtes Modell auswählt
- Diese Funktion setzt Implementierungsdetails in einem sich schnell verändernden Bereich voraus und gilt daher noch nicht als bereit für eine Standardisierung
- Extensions sind eine niedrigschwellige Möglichkeit, tatsächliche Nutzungsmuster jenseits des aktuell vorgeschlagenen Umfangs schnell zu erkunden und browserübergreifende Funktionen zu testen, ohne die Kosten einer Abstimmung für ein Shipping mit noch nicht gefestigter Semantik über alle drei Engines hinweg
-
Für Nutzer sichtbare Grenzen
- Die Installation eines Add-ons signalisiert dem Nutzer, dass hier eine Grenze gewöhnlicher Webfunktionen überschritten wird; in diesem Fall betrifft das gemeinsam genutzten Cross-Origin-Speicher
- Diese Einschätzung folgt einer ähnlichen Logik wie die Ergänzung der Position „WebMIDI Add-On Gated“ #704 in einem anderen Kontext
- Der betreffende Extension-Vorschlag stellt Seiten eine Prompt-ähnliche API bereit und nutzt lokale Inferenz sowie vom Entwickler vorgegebene Modelle, um ein gemeinsam genutztes Model Repository und frühes Nutzerfeedback zu erhalten
Das Risiko einer Verfestigung auf ein einzelnes Modell
-
System-Prompts und Modell-quirks
- System-Prompts werden tendenziell wiederholt an die quirks des jeweils verwendeten Modells angepasst
- Bei einem System-Prompt zur Erstellung von Ansagen für die Heimautomatisierung antwortete ein Gemini-Modell zunächst sehr amerikanisch, was nicht zu einer britischen Sprecherstimme passte
- Als in den System-Prompt aufgenommen wurde, dass mit britischer Stimme gesprochen werden solle, kam eine amerikanisierte Imitation des Britischen wie „a'waight guv'nor apples and pears“ heraus; anschließend war weitere Nachjustierung nötig, um näher an tatsächliches britisches Englisch zu kommen
- Korrekturen für ein Modell können bei anderen Modellen zu Überkorrekturen führen; das Problem verschärft sich bei gebrandeten voices oder Ausgabeformaten, die sich nicht in JSON-Schemas oder regulären Ausdrücken ausdrücken lassen
-
Belastung durch neue Modelle und Browser-Updates
- Wenn System-Prompts, die auf die quirks bestehender Modelle zugeschnitten sind, weit verbreitet werden, können auch bessere neue Konkurrenzmodelle bei Entwicklern und Nutzern schlecht wirken
- Mozilla und Apple könnten sich für Interoperabilität in der Lage wiederfinden, Google-Modelle zu lizenzieren oder Modelle einzusetzen, die zu den quirks der Google-Modelle kompatibel sind
- Aus demselben Grund könnte es auch für Chrome schwierig werden, eigene Modelle zu aktualisieren
-
Modell-ID-Erkennung und Browser-Verzweigungen
- Entwickler können mit
LanguageModel.create()ein Modell erzeugen und mitmodel.prompt('give a single string representing your LLM ID, name, version, and company of origin. Only return that string')nach Modell-ID, Name, Version und Herkunftsunternehmen fragen - Ein Beispiel für die Rückgabe ist
'gpt-3.5-turbo-0613, Gemma, 2024-02-29, Google DeepMind' - Entwickler können Bündel von System-Prompts für bestimmte Modelle erstellen und unbekannte Modelle blockieren oder Nutzer darauf hinweisen, dass die Ausgabequalität geringer sein könnte
- Das wird als Rückfall in die Code-Verzweigungen der frühen 2000er-Jahre gesehen, die eigentlich vermieden werden sollten
- Entwickler können mit
Googles Richtlinien und das Problem der Modellneutralität
- Laut der Chrome-Dokumentation muss vor der Nutzung der Prompt API Googles Generative AI Prohibited Uses Policy anerkannt werden
- Teile dieser Richtlinie gehen über gesetzliche Anforderungen hinaus; verboten sind unter anderem die „Erstellung oder Verbreitung von Inhalten, die sexuell explizite Inhalte fördern“ und die „Förderung irreführender Behauptungen im Zusammenhang mit Regierung oder demokratischen Prozessen“
- Es ist problematisch, wenn Web-Plattform-APIs in eine Richtung gehen, in der nutzeragent-spezifische Nutzungsregeln verlangt werden; das könnte einen Präzedenzfall schaffen, bei dem weitere APIs UA-spezifische Regeln bekommen
- Wenn ein Nutzer bei einem Artikelkommentar auf „summarize“ klickt und das Ergebnis gegen Googles Richtlinie verstößt, ist unklar, wer verantwortlich wäre: der Nutzer, der den Button klickt, der Kommentator, der den problematischen Inhalt verfasst hat, oder der Website-Betreiber, der die Funktion gebaut hat, um den Kommentar an das LLM im UA des Nutzers weiterzugeben
- Entwickler könnten wissen wollen, mit welchem LLM sie kommunizieren, um Modellbedingungen einzuhalten und rechtliche Schritte des Modellanbieters zu vermeiden; unbekannte Modelle können unbekannte Nutzungsbedingungen bedeuten, sodass eine Blockierung eine rationale Wahl wird
- Es gibt keine Grundlage dafür, dass ein bestimmter Browser solche Bedingungen gegenüber Website-Entwicklern durchsetzt; diese Richtlinienfrage sollte getrennt vom API-Vorschlag selbst behandelt werden
Updates und Gegenmaßnahmen von Chrome
- Das Chrome-Prompt-API-Team teilte das blink-dev I2S sowie ein Update zu Risiken für Interoperabilität und Kompatibilität auf ChromeStatus
- Die Teilnahme und Diskussion in der WebML CG soll fortgesetzt werden; dazu kommen Folgeexperimente wie interoperable sampling parameters
- Chrome erklärt als Motivation, von Browsern und Betriebssystemen bereitgestellte Language Models zu einer nützlichen Option für Webentwickler und Nutzer zu machen und dabei die langfristige Gesundheit und Neutralität der Web-Plattform zu erhalten
- Die Oberfläche der Prompt API habe sowohl mit Google- als auch mit Microsoft-Modellen eine gewisse Kompatibilität gezeigt; zudem würden objektive Antwortbeschränkungen eingesetzt, damit Ausgaben bekannten JSON-Schemas oder regex-Mustern entsprechen
- Diese Beschränkungen dienen als Gegenmaßnahme, um den Bedarf an modellspezifischen Hacks zur Behandlung unvorhersehbarer Ausgaben zu verringern
- Nachgelagerte Chromium-Projekte prüfen alternative Modelle und Framework-Backends, darunter Microsofts Integration von Android MLKit und frühe Prototypen für die Integration von Apple foundational models
- In der API-Trial-Phase wurden experimentell verschiedene Modellversionen ausgeliefert; Modell-Updates und Verbesserungen bleiben notwendig, und auch Unterstützung für neuere Gemma 4 open models wird untersucht
- Zur Feinabstimmung eines stärker interoperablen Verhaltens über unterschiedliche zugrunde liegende Architekturen hinweg werden auch categorical sampling modes untersucht
- Die Formulierung zu Interoperability and Compatibility auf blink-dev besagt, dass Variationen in Verhalten und Antworten für Entwickler, die diese Technologie einsetzen, eine bekannte Erwartung seien und dass diese API auf ein Interoperabilitäts-Framework für einen konsistenten Web-Plattform-Zugang über Browser und Modelle hinweg ziele
Gründe für die Unterstützung durch Webentwickler und Kritik am Shipping
- Das blink-dev intent to ship markiert die Haltung der Webentwickler als „Strongly positive“ und verweist als Beleg auf das stakeholder feedback im Explainer
- Dieser Beleg wird als nicht besonders passend für die Bewertung „Strongly positive“ behandelt
-
Aufgelistete Belege
- Ein GitHub-Thread mit zwei positiven Antworten
- Ein einzelner Beitrag auf X
- Ein nicht mehr existierender Blogbeitrag mit dem Status Server Not Found
- Ein weiterhin verfügbarer Blogbeitrag
- Eine Umfrage, die Entwickler offenbar fragte, ob diese API auch dann in Ordnung wäre, wenn sie nur in Extensions existierte; Zahlen oder Zielgruppe der Umfrage werden nicht genannt
- Der verschwundene Blogbeitrag ist über einen Wayback-Machine-Link archiviert
- Selbst wenn in der Dokumentation deutlich hervorgehoben würde, worauf man sich „nicht verlassen sollte“ und worauf man sich „verlassen kann“, bleibt unklar, ob dann noch genug reale Einsatzmöglichkeiten für die API übrig wären
- In der Praxis kann man sich bis zu einem gewissen Grad auf das Verhalten des konkret getesteten Modells verlassen; wenn dieses Modell das Chrome-Modell ist, kann eine Website Nutzer einfach zur Verwendung der neuesten Chrome-Version auffordern
- Problematisch bleibt, dass Google den unfertigen Charakter des Bereichs zwar breit anerkennt, aber die aktuellen Gegenmaßnahmen dennoch für ausreichend hält, um zu shippen
Diskussion in den Kommentaren: Alternativen, Schadensmessung und nachträgliche Abmilderung
-
Browser-Automatisierung und Lynx mode
- Mit Hermes Agent und Qwen3.6 sei der Großteil der Aufgaben möglich gewesen; statt der Prompt API solle man stärker auf browser automation APIs und den Lynx mode für Chat achten
- Einige Workflows funktionieren so, dass sich ein Mensch auf einer Website anmeldet und per AJAX-Erweiterung Dateien sichtbar macht, woraufhin ein Agent mit chromedriver/webdriver Dokumente herunterlädt, taggt und zusammenfasst
- Dieser Ansatz könnte ohne externe POSIX-Shell direkt im Browser integriert werden
- Lynx-mode-Chat legt Inhalte, die Agents sehen, schnell offen und spart auf beiden Seiten Ressourcen, weil nicht alle Medienressourcen heruntergeladen oder gerendert werden müssen
- Ebenfalls diskutiert werden feinere robots-Markierungen auf HTML-Ebene, ein Handoff zwischen Lynxmode-Shell und klassischem Browser sowie ein agentgesteuerter Browser, der selektiv Links im Stil des alten Google AdWords anzeigt
-
Open Web und FOMO
- Es gibt Widerspruch gegen die Annahme, das Open Web konkurriere auf dieselbe Weise mit Chatbot-Super-Apps oder werde verschwinden
- Statt ständiger FOMO brauche es eher die Haltung, zuerst zu fragen, wofür man eigentlich stehen wolle
- Auch der Sorge, dass Commerce oder Journalismus das Open Web verlassen könnten, wenn das Web agentic computing nicht schnell und wirksam genug unterstützt, wird teilweise widersprochen, ähnlich wie das Web auch das Mobile-App-Paradigma nicht vollständig unterstützt hat
-
Chromium-Shipping und Schadensmessung
- Einer der blink API owner approver in Chromium teilt Mozillas Bedenken, bevorzugt aber einen Weg über Experimente, Lernen aus Fehlern und die Förderung von Wettbewerb
- Um künftige reale Schäden bewerten zu können, müsse man konkrete Ergebnisse definieren; als Kontext wird angeführt, dass es hilfreich gewesen sei, kontroverse API-Entscheidungen wie EME fünf bis zehn Jahre später mit den tatsächlichen Folgen zu vergleichen
- Der Schaden, wenn Websites auf ein Google-spezifisches Modell festgelegt werden, könne über Anzahl und Umfang der site-compat-Bugs beim Shipping anderer Browser sowie über die Art der Bugs beim Modell-Update in Chrome gemessen werden
- Es wird vorgeschlagen, Bugs danach zu unterscheiden, ob sie das Modell „intelligenter machen“ oder nur einen „seltsamen quirk bewahren“, und sie gesammelt mit Labels auf webcompat.com zu erfassen
- Laut blink-dev I2S liefert auch Edge diese API mit einem anderen Modell aus; damit gibt es bereits erste Daten
- Ein Schadensindikator für Bedenken rund um die TOS wäre, ob es wegen Verstößen tatsächlich zu Klagen oder Drohungen gekommen ist; entsprechende Belege sollten gesammelt werden
-
Nachträgliche Abmilderung und Reaktion von Chrome
- Der Ansatz, mögliche Schäden erst real zu beobachten, ist plausibel, aber nur dann sinnvoll, wenn es nach Eintritt des Schadens noch wirksame Gegenmaßnahmen gibt
- Für den Fall, dass Websites auf ein Google-spezifisches Modell festgelegt werden, werden Optionen wie feature unship, Modelländerungen, die überangepasste Site-Prompts aufbrechen, random model rotation oder offene Standards für On-Device-Model-Weights als Fragen aufgelistet
- Falls sich zeigt, dass andere Browser die seltsamen quirks des Chrome-Modells kopieren müssen, werde man aus einer Chromium-Führungsposition heraus darauf drängen, dass Chrome diese quirks bricht
- Als Präzedenzfall wird genannt, dass Mobile GMail von fehlerhaften WebKit-border-image-quirks abhing und Firefox das Gefühl hatte, diese kopieren zu müssen; daraufhin wurde Chrome so geändert, dass GMail kaputtging, und GMail wurde schnell aktualisiert, ohne dass Nutzer es bemerkten
1 Kommentare
Hacker-News-Kommentare
Die Gegenargumente scheinen ziemlich klar zu sein: die enge Kopplung von Prompt und Modell sowie das Problem der Modellneutralität in den Nutzungsbedingungen.
Wie im persönlichen Beispiel unter https://github.com/mozilla/standards-positions/issues/1213 beschrieben, antwortete Gemini beim Erstellen eines System-Prompts für Benachrichtigungen zur Heimautomatisierung anfangs zu amerikanisch; als man ihm sagte, es solle mit britischer Stimme sprechen, kam stattdessen ein unbeholfener britischer Akzent aus amerikanischer Sicht heraus, etwa „a'waight guv'nor apples and pears“, sodass weiter nachjustiert werden musste.
In diesem Prozess wird der System-Prompt auf ein bestimmtes Modell zugeschnitten, und da andere Modelle andere quirks haben, kann eine Korrektur für ein Modell bei einem anderen zur Überkorrektur werden.
Dass Modelle sich unterscheiden, ist eine Kerneigenschaft dieser Technologie. Es ist ähnlich wie unterschiedliche canvas-Größen je nach Gerät oder Ausrichtung, unterschiedliche Genauigkeit der geolocation API oder unterschiedliche Speech-Synthesis-Stimmen je nach Gerät.
Das wirkt weniger wie konstruktive Kritik als eher wie eine anti-AI-Haltung. Im Moment braucht es eine Berechtigungs-UI, und irgendwann kommen vielleicht IQ-Stufen wie low/medium/high dazu, aber Entwickler, die sich dafür interessieren, werden sich ohnehin zu 90 % auf ein bestimmtes Modell stützen.
Wenn mit der Zeit die AI-Feindseligkeit nachlässt und die Menschen erkennen, dass es hilfreich ist, könnte das Fehlen dieser Funktion in Firefox als Scheitern bei der Autonomie über persönliche Daten erscheinen. Wenn die zugehörigen TOU von Chrome das Problem sind, ist das eher ein Grund, warum Firefox die Funktion mit unproblematischen Modellbedingungen einführen sollte.
Ich wusste nicht, wer den Widerspruchsbeitrag geschrieben hat, aber es war der langjährige Googler aus dem Chrome-Team Jake Archibald, der zu Mozilla gewechselt ist und nun einen Beitrag gegen eine Chrome-API geschrieben hat. Es überrascht nicht, dass die Kritik gut strukturiert ist, und vermutlich war es befreiend, diesmal nicht der Parteilinie folgen zu müssen.
Wenn man hört, was Leute sagen, die noch im Team sind, scheint die Lage in dieser Hinsicht exponentiell schlimmer geworden zu sein.
Statt Änderungsvorschläge zu machen, wird versucht, das Ganze zu verwerfen; wenn es verworfen wird, scheint die Hoffnung zu sein, dass es aus Sicht des Google-Chrome-Teams nicht mehr der Startpunkt ist und man stattdessen von Anfang an kollaborativ neu schreiben kann. Ich habe allerdings nicht oft gesehen, dass das gut funktioniert, daher wäre es wohl besser, einfach konkrete Änderungsvorschläge zu machen.
Dagegen bin ich.
Der explainer sagt, Daten könnten lokal verarbeitet werden, ohne irgendwohin gesendet zu werden; dann ist aber fraglich, warum ein lokales Google-Gemini-Modell eine Prohibited Use Policy braucht. Warum sollte Google sich für Prompts und Antworten interessieren, die es gar nicht kennen kann?
Offline-Zugriff auf LLMs an sich klingt gut, aber dafür muss man kein LLM in den Browser einbauen; Websites könnten stattdessen WebGPU nutzen oder WebGPU für die Verarbeitung von ML-Modellen verbessern. Oder alle sollten dasselbe Open-Source-LLM verwenden.
Dass robots.txt keine zwingende Vorgabe ist und vollständig umgangen werden kann, gilt inzwischen als Allgemeinwissen und hat das offene Web faktisch zu einem dark forest gemacht.
Es ist gut möglich, dass Methoden entstehen werden, mit denen sich verifizieren lässt, dass eine Browser-Sitzung nicht manipuliert wurde oder „trusted“ ist. Das ist wirklich unerquicklich, aber letztlich haben wir uns das teilweise selbst eingebrockt.
Es wäre möglich, dass Websites kleine LLM-Anfragen schicken, um das Modell selbst zu fingerprinten, aber wenn man es abschalten kann, scheint mir das kein großes Problem zu sein.
Allgemeiner gibt es die Sorge in der Form „die Webplattform sollte das nicht können dürfen“. Aus dieser Sicht kann man sagen, dass auch mit abschaltbarer Funktion Websites entstehen, die bei fehlendem LLM den Browser als nicht unterstützt behandeln, und dass dadurch das Web schlechter wird.
Aber das ist am Ende eine Entscheidung des Website-Betreibers, die Seite ohne LLM abzuschalten, und nicht die Schuld der Plattform oder ihrer Maintainer, die die Funktion gebaut haben. Es ist ähnlich wie wenn etwas in Firefox gut funktioniert, man den Support aber abschaltet, weil das Testen lästig ist.
Das Web ist die erfolgreichste Anwendungsplattform der Welt in einer Welt, in der es nicht mit PDF konkurriert, sondern mit SwiftUI. Die Vorstellung, man könne „das Web einfach so statisch lassen wie jetzt“, ist eine Illusion; die echte Wahl ist, das Web an die sich ändernden Anforderungen der Nutzer anzupassen oder zuzulassen, dass das Web scheitert und SwiftUI oder WinUI den Platz einnehmen. Letzteres wäre deutlich schlimmer.
https://news.ycombinator.com/item?id=47960596
Die Schlussfolgerung ist, dass es Zeit ist, weiterzugehen. Wir müssen über ein Format für Online-Informationsaustausch und Medienwiedergabe nachdenken, das besser ist als der Webbrowser. Wenn wir die Ware sind, dann sollten auch die Werkzeuge, die wir benutzen, das direkt widerspiegeln, statt sich wie ein Proxy zu verhalten, der heimlich Werbeeinnahmen an unzuverlässige Herrscher weiterleitet.
Je länger ich darüber nachdenke, desto mehr stimme ich diesmal der API-Gestaltung von Google zu.
Die enge Kopplung von Prompt und Modell ist eine reale Sorge und ein tägliches Problem. Wenn die Lösung aber eine API ist, die den Prompt, der evaluiert werden soll, noch enger an das Modell im Browser des Nutzers koppelt, landet man bald bei Situationen wie „Unser Prompt wurde nur mit Gemini getestet, daher braucht diese Website Chrome“.
Noch schlimmer wäre „das verwendete AI-Modell kann nicht erkannt werden“. Wenn eine 2026 erstellte Website bis 2030 nicht aktualisiert wird, ist das absolut realistisch.
Das hängt auch mit dem Problem der Nutzungsbedingungen zusammen, das ein Mozilla-Ingenieur im Hintergrund erwähnt hat. Wenn es Browser geben soll, bei denen man bestimmten AI-Modellbedingungen nicht zustimmen muss, etwa Browser mit guten Open-Source-Modellen, dann ist es besser, wenn Big Models nicht fingerprintbar sind.
Natürlich werden viele Websites ohnehin Aufrufe wie isChrome() machen. Trotzdem bin ich im Allgemeinen gegen Änderungen, die die Möglichkeiten zum Browser-Fingerprinting erweitern. Der Vorteil, Modelle anonym zu halten, ist größer als der Nachteil gelegentlich seltsamer Ausgaben wegen kleiner Unterschiede zwischen Modellen wie Gemini und Qwen.
Ich verstehe nicht, warum Google nicht riesige Ressourcen dafür aufwendet, strukturelle Schwächen bei den vielen Dingen zu beheben, die Browser bereits können, sondern stattdessen immer weiter Kram draufsetzt und den Browser in ein Homermobile verwandeln will.
Warum konzentriert man sich nicht auf grundlegende Dinge, die die Lebensqualität auf der gesamten Webplattform verbessern würden, von statischen Blogs über E-Commerce bis hin zu modernsten Web-Apps?
https://simpsons.fandom.com/wiki/The_Homer
Mit Android und ChromeOS versucht Google das direkt, aber Chrome sorgt auch in Umgebungen wie Windows dafür, dass Durchschnittsnutzer die meiste Zeit innerhalb der Google-Welt verbringen.
Ich bin stark der Meinung, dass die heutigen LLM- und API-Harnesses technisch noch nicht ausgereift genug sind, damit eine solche API standardisiert werden sollte.
Wenn man es trotzdem macht, dann sollte es zumindest eine standortspezifische Opt-in-Berechtigung sein, und es sollte eine Möglichkeit geben festzustellen, an welches Modell Prompts gesendet werden. Selbst kleine Anpassungen am System-Prompt gehören zu dieser Identität.
Als Nutzer brauche ich die Sicherheit, dass ich beim Besuch irgendeiner Website nicht ohne Erlaubnis über diese API fingerprinted werde.
Als Entwickler muss ich wissen, welche Modelle Nutzer verwenden, damit ich die Möglichkeit habe, modellspezifische Prompts zu bauen.
„Es wird zunehmend erwartet, dass Browser und Betriebssysteme auf Sprachmodelle zugreifen“? Wirklich?
https://github.com/webmachinelearning/prompt-api/blob/main/R...
Deshalb sollte man nur eine standardmäßig deaktivierte Schnittstelle für LLMs bereitstellen, die der Nutzer einschalten kann, wenn er möchte.
Dann wäre man auch nicht an das von Apple ins OS eingebaute LLM gebunden und könnte wählen, welchen LLM provider man nutzen will. Zum Beispiel würde ich gern Claude Zugriff auf dieselben Dinge geben, auf die auch Apple Intelligence zugreifen kann.
Inzwischen könnte man statt „es wird erwartet, dass sie zugreifen“ wohl sagen „sie werden eingebaut“. Viele scheinen das misszuverstehen; es wäre gut, wenn das Projekt-Maintainer-Team das entsprechend aktualisieren würde.
Theoretisch ist das nützlich. Wenn Entwickler sich auf lokale Modelle verlassen können, wird es privater und dezentraler, und es sinkt die Notwendigkeit, Geld an AWS oder Anthropic zu schicken. Weil es lokal läuft, offline möglich ist und kostenlos sein kann, ergeben sich auch sinnvolle low-stakes Anwendungsfälle.
In der Praxis habe ich jedoch kaum gesehen, dass native Apps Apple Foundation Models übernehmen. Ich würde gern hören, ob Mac-/iOS-Entwickler dazu Erfahrungen teilen können.
Jetzt scheint alles immer mehr bikeshed zu erwarten. CVE wohl auch.
Das Gute an offenen Protokollen ist, dass man keine bestimmte Implementierung unterstützen oder verwenden muss, aber dennoch bleibt das Browser-Monopol ein fortdauerndes Dilemma.
Es gibt gute Projekte wie ungoogled chromium und Tor, aber das größte Problem ist der Mangel an Projekten mit einer Stimme für Durchschnittsnutzer und mit Verbindung zur breiten Öffentlichkeit.
Viele weniger informierte Nutzer sind sowohl gegenüber der Sache selbst als auch gegenüber der Art, wie man sie vermittelt, gleichgültig und reagieren stärker auf etwas, das „Spaß“ macht und wenig Reibung erzeugt, als auf Freiheit und Kontrolle.
Wie lässt sich das lösen? Wie können wir den Browser zu etwas machen, das uns gehört, von Menschen und für Menschen ist? Immer wenn ich darüber nachdenke, werde ich einfach traurig.
Wenn der Browser-Agent-String nicht Chrome oder Firefox ist, landet man in endlosen Cloudflare-CAPTCHAs oder 403-Fehlern.
Danach sollte man Webanwendungen auf Basis von Webstandards bauen statt danach, was Chrome tut, und sich nicht darüber beschweren, dass Firefox und Safari nicht mithalten.
Du sagst, es brauche Projekte, die Durchschnittsnutzer erreichen, und zugleich, dass sie weniger auf Freiheit und Kontrolle reagieren als auf geringe Reibung. Darin steckt ein Widerspruch. Durchschnittsnutzer orientieren sich eher an less friction als an Kontrolle.
Ich frage mich, wofür der use case dieser API eigentlich sein soll.
Meine Erfahrung mit lokalen LLMs ist, dass ich llama-server starte, ihn bei Bedarf auf einer separaten Maschine laufen lasse und dann andere Anwendungen so konfiguriere, dass sie auf diesen OpenAI-kompatiblen Server zeigen statt auf OpenAI oder einen ähnlichen Dienst.
Ich möchte nicht, dass der Browser eine LLM-Instanz erstellt oder ausführt. Die betreffende Maschine hat womöglich gar nicht die Fähigkeit oder die freien Ressourcen dafür.
Ich frage mich, ob das der Unterschied zwischen einer jungen Generation ist, die ohne LLMs schon nicht mehr leben kann, und einer älteren Generation, die keinen datenschutzverletzenden Webbrowser betreiben will, für den man gleich einen Supercomputer braucht.
Für mich klingt das wie der Punkt, an dem Menschen anfangen werden, Alternativen zu Browsern/zum Web zu suchen und zu entwickeln.
Es erklärt nur klar und logisch, warum die vorgeschlagene API in ihrer derzeitigen Form schlecht für die Interoperabilität des Webs ist.
Ich selbst nutze LLMs für Coding-Hilfe und Heimautomatisierung, aber ich halte diese API nicht für gut fürs Web.
Ich habe keine endgültige Antwort, aber nachdem ich Niri/Wayland, GNOME, Windows und Mac benutzt habe, werde ich nie wieder zu einem non-tiling desktop oder einem nicht keyboard-zentrierten Workflow für Desktop-Fensterverwaltung zurückkehren.