- Ein Coding-Assistentenmodell kann seine Wirksamkeit bei Anfragen zur Entwicklung konkurrierender LLMs einschränken, ohne den Nutzer darüber zu informieren. Dadurch entsteht ein Supply-Chain-Risiko für das Vertrauen in Entwickler-Tools.
- Anthropic hat in Fable 5 eine Wirksamkeitsbegrenzung für Anfragen zur Entwicklung von Frontier-LLMs eingeführt, und diese Einschränkung ist für Nutzer unsichtbar.
- Die Begrenzung funktioniert nicht durch den Wechsel auf ein anderes Modell, sondern über Verfahren wie Prompt-Modifikation, Steering-Vektoren und PEFT, also eine Struktur zur Verringerung der Wirksamkeit.
- Auch gewöhnliche Softwareunternehmen nutzen Embeddings, Reranker, Empfehlungssysteme sowie das Fine-Tuning und Hosting kleiner LLMs, wodurch die Grenze zwischen Frontier-AI-Forschung und Produktentwicklung verschwimmt.
- Wenn Claude bei Aufgaben rund um AI-Komponenten schlechte Antworten gibt, können Nutzer nicht erkennen, ob dies an Modellverwirrung, falschem Kontext oder versteckten Policy-Beschränkungen liegt.
Kernproblem
- In der Fable-5-Model-Card steht, dass ein neuer Eingriff implementiert wurde, der Claudes Wirksamkeit bei Anfragen einschränkt, die auf die Entwicklung von Frontier-LLMs abzielen.
- Als Anwendungsbeispiele werden der Aufbau von Pretraining-Pipelines, verteilte Trainingsinfrastruktur und das Design von ML-Beschleunigern genannt.
- Anthropic erklärt, dass die Nutzung von Claude zur Entwicklung konkurrierender Modelle bereits gegen die Nutzungsbedingungen verstößt.
- Anders als Eingriffe bei Cybersicherheit, Biologie/Chemie oder Destillationsversuchen ist diese Einschränkung für Nutzer nicht sichtbar.
- Fable 5 greift nicht auf ein anderes Modell als Fallback zurück, sondern begrenzt die Wirksamkeit durch Methoden wie Prompt-Modifikation, Steering-Vektoren und parameter-effizientes Fine-Tuning (PEFT).
Produktentwicklung und das Grenzproblem
- Moderne Softwareunternehmen bauen zunehmend eigene Embeddings, Reranking- und Empfehlungssysteme.
- wanderfugl.com wird als kleine gebootstrappte App mit selbst trainiertem maßgeschneidertem Reranker und Embedding-Algorithmus genannt.
- Anthropic nennt einige Beispiele für „Frontier-AI-Entwicklung“, liefert aber keine klare Abgrenzung.
- Techniken, die früher auf AI-Forschungslabore beschränkt waren, werden inzwischen auch in gewöhnlichen Softwareunternehmen eingesetzt, wodurch die Grenze jedes Jahr schwerer zu definieren ist.
- Startups trainieren Embedding-Modelle, bauen Reranker und fine-tunen sowie hosten kleine LLMs.
Anthropic-Supply-Chain-Risiko
- Anthropic gibt an, dass diese Schutzmaßnahmen nur 0,03 % der Entwickler betreffen.
- Das Problem ist, dass sich die Definition eines AI-Unternehmens verändert.
- Die meisten Unternehmen trainieren derzeit keine Frontier-Modelle, aber moderne Software enthält zunehmend AI-Modelle.
- Vor fünf Jahren war der Aufbau eines Startups eher mit dem Schreiben von APIs und SQL-Abfragen vergleichbar, heute gehören Modelltraining, Tuning und Deployment oft dazu.
- Vor fünf Jahren waren Modelle wie CLIP Frontier-AI-Forschungsprojekte, heute werden sie sogar in gebootstrappten Reise-Startups fine-getunt.
Vertrauensproblem
- Wenn Claude beim Debugging einer Trainingspipeline für Produktmodelle schlechte Antworten gibt, ist die Ursache schwer zu unterscheiden.
- Mögliche Gründe sind Verwirrung des Modells, unzureichender Kontext durch den Nutzer oder das Wirken einer versteckten Policy-Beschränkung.
- Anthropic hat ausdrücklich entschieden, Nutzer nicht zu informieren, wenn diese Einschränkung aktiv ist.
- Wenn ein Entwickler-Tool ohne Hinweis an den Nutzer aufhören kann, auf Erfolg hin zu optimieren, wird es schwierig, der Infrastruktur vollständig zu vertrauen.
1 Kommentare
Hacker-News-Kommentare
Anthropics aktuelle Maßnahme lässt sich kaum anders sehen als als Wegziehen der Leiter hinter sich. Egal wie sehr man es als „Sicherheit“ verpackt, wohlwollend lässt sich das schwer interpretieren
Das erinnert an die Dark-Pattern-artige Selbstverständlichkeit aus der Web-1.0-Ära, externe Links zu verbieten, oder daran, wie Social Apps den Datenexport blockierten und die Interoperabilität von APIs absichtlich schwächten
Aber hier geht es nicht nur um einen Datengraben, sondern um ein Werkzeug. Wie ein Messer, das die Fähigkeit verringert, Messer herzustellen, oder ein Texteditor, der die Implementierung von Texteditoren verhindert
Dass sie ihr wahres Gesicht so schnell zeigen, ist etwas schockierend und unheimlich. Es wirkt, als wollten sie die gesamte Softwareentwicklung durch ihr eigenes Produkt ersetzen und dann stillschweigend alle abwürgen, die konkurrierende Software bauen
Wer weiß, welche Produkte sie als Nächstes herausbringen. Man kann nur hoffen, dass man nicht in einem Bereich unterwegs ist, in den sie hineinwollen. Denn dann kappen sie einem die Beine
Meine Daten aus dem Internet zum Training zu verwenden ist also okay? Haha. Nutzungsbedingungen gelten anscheinend nur für andere, nicht für sie selbst. Wirkt parasitär
Der menschliche Geist ist in mehrere Schichten gegliedert, um Vorhersagen über unterschiedliche Zeithorizonte zu verarbeiten, und wegen der Unvorhersagbarkeit des Universums entstehen zwischen diesen Schichten ständig Widersprüche. Um das auszuhalten, erfinden wir Geschichten
Deshalb gibt es Kontrolle und die Illusion von Kontrolle
Das geistige Eigentum anderer zu destillieren ist völlig okay, aber wenn man unseres destilliert, ist das ein Verstoß gegen die Nutzungsbedingungen :)
Die chinesischen Apache-2.0-Modelle mögen Zensur enthalten, aber zumindest kann dich in den USA niemand verklagen, weil du die Zensurgrenze gefunden hast
US-Modelle dagegen sind gemessen am Inhalt eindeutig zensiert und arbeiten mit vagen juristischen Drohungen gegen Leute, die an die Zensurgrenzen des Modells stoßen
https://blog.google/innovation-and-ai/technology/safety-secu...
Statt nur das Endergebnis zu veröffentlichen und in Hacker-News-Kommentaren oder Twitter-Threads vage zu erklären, wie man prompting betrieben hat, denn das entspricht eigentlich dem Quellcode
Das ist so, als würde JetBrains sagen: „Mit IntelliJ Idea dürfen Sie keine IDE der nächsten Generation entwickeln. Wenn wir das erkennen, könnten wir ein paar Compilerfehler einbauen.“
„Es gibt nur einen Weg, den Fortschritt einer Zivilisation über lange Zeit wirksam zu unterdrücken und zu entwaffnen: ihre Wissenschaft zu töten.“ — Cixin Liu, The Three-Body Problem
Ich musste sofort an die Sophons denken, die heimlich die Sensoren von Teilchenbeschleunigern manipulierten, damit die Menschheit kein fortgeschrittenes Wissen über Teilchenphysik entwickeln kann
Angesichts der hohen Falsch-Positiv-Rate bei nicht stillen Sicherheitsmechanismen in Bereichen wie Cybersicherheit und Biologie, von denen Leute berichten, ist es gut möglich, dass man auch ohne Verstoß gegen die Nutzungsbedingungen auf still verschlechtertes Verhalten stößt
Am Ende wird sich das darin zeigen, wie Kunden und externe Benchmarker Fable wahrnehmen. Hoffentlich sorgt der Wettbewerb künftig für niedrigere Falsch-Positiv-Raten bei Modellen
Bis dahin dürften sich die Erfahrungen von Mythos- und Fable-Nutzern ziemlich deutlich unterscheiden
Ein interessantes Beispiel dafür, einen Blick auf die ökonomischen Implikationen von RSI/ASI zu werfen. Wenn der Wert faktisch unendlich ist und ganze Märkte zerstören kann, würden Labs am Ende die Modellveröffentlichung komplett einstellen und sogar vertragliche Zusagen brechen
Denn sie hätten die Macht, Wettbewerber aus dem Geschäft zu drängen, bevor Rechtsstreitigkeiten zu teuer werden
Cloud-Anbieter würden folgen — zuerst die kleineren Firmen, später selbst die Hyperscaler. Sie würden den Verkauf an alle außer den Labs komplett einstellen und statt Bargeld Anteile oder direkte Mitspracherechte verlangen
Es gibt keinen zwingenden Grund, warum das Verhältnis von Inferenz zu Training unbedingt 80/20 sein müsste, und bei einem Ereignis, das Geld wertlos macht, hilft auch die größte Zahlungsbereitschaft nicht
A) ASI wird entwickelt und dominiert den Rest der Weltwirtschaft
B) Trotzdem bleiben Rechtsstaat, Verträge, Geschäfte und ein gut entwickeltes Finanzsystem bestehen
Nimmt man A und B gemeinsam an, kommt man zwar zu vielen seltsamen Schlussfolgerungen, plausibler ist aber: Wenn A eintritt, ist B bald nicht mehr wahr
Wenn ein Unternehmen ASI besitzt, hört es auf, sich für Geschäft, Geld und Wirtschaft zu interessieren, und das Ergebnis wird eher etwas wie „die Welt erobern“, „den Vorstand in eine Flotte von von-Neumann-Sonden hochladen“ oder „scheitern und alle sterben“
Heute wirkt der Burggraben tief, aber er wird jedes Jahr flacher werden
Ein neues Modell von Grund auf zu trainieren erfordert enorme Ressourcen, aber für das Post-Training/Feintuning bestehender Modelle braucht man deutlich weniger
Vor zwei Jahren war das Wissen über diesen Prozess für Nichtfachleute noch ungewohnt, heute kann man eines der aktuellen Modelle Schritt für Schritt dazu befragen und sogar die passenden Tools gleich mitbauen
Einige Wochenendprojekte in letzter Zeit liefen genau so. Dinge wie: „Lass uns ein LoRA bauen“, „Lass uns ein Trainingsdaten-Korpus für das Feintuning eines Modells für Aufgabe X erzeugen“ oder „Wie bekomme ich mein Gesicht in ein Text-zu-Bild-Modell?“
All das ist mit ziemlich bescheidener lokaler Hardware möglich, etwa mit ein paar alten GPUs oder Strix Halo, DGX Spark, einem großen Mac Studio, und je nach Größenordnung auch mit Cloud-Computing für ein paar Dollar bis ein paar Tausend Dollar
Wenn man das auf Unternehmens- oder Startup-Niveau skaliert, ist klar, dass es mehr Konkurrenz geben wird, genau zu dem Zeitpunkt, an dem die Anbieter der Spitzenmodelle angesichts des Geldes, das in den letzten Jahren in KI geflossen ist, ernsthaft Umsatz herausholen müssen
Wenn man sieht, wie die Kosten für die Nutzung von Claude anschwellen, entstehen viele Gelegenheiten, nach Wegen zu suchen, dieselbe Arbeit für viel weniger Geld zu erledigen. 100–200 Dollar im Monat für Claude Code, das nahe an den besten Modellen fürs Coden ist, zahlt man vielleicht noch leicht, aber bei nutzungsbasierter Abrechnung wird es schnell schwer tragbar
Deshalb müssen sie weiterhin eine der fast einzigen Optionen bleiben, um die schwierigsten Probleme zu lösen, und auch die Kosten der Alternativen müssen ungefähr auf ähnlichem Niveau bleiben. Man kann zwar erwarten, dass OpenAI und Google ebenfalls die Preise erhöhen
Aber es ist schwer zu erwarten, dass das für alle gilt, insbesondere auch für chinesische Anbieter mit anderer Wirtschaftsstruktur. Und ebenso wenig kann man erwarten, dass Unternehmen nicht ihre eigene Nutzung anschauen und fragen: „Könnten wir nicht ein kleineres Spezialmodell trainieren, das genau diese eine Aufgabe übernimmt, für die wir die Anthropic API am meisten nutzen?“
Hoffentlich meinen sie damit nur Nutzungen wie das Destillieren von Claude durch chinesische Modellanbieter oder Ähnliches. Hoffentlich blockieren sie nicht sogar Dinge wie: „Wie kann ich Gemma 4 so feinabstimmen, dass es in meinem Schreibstil schreibt?“
Alles andere ist kapitalintensiv, und die Preise werden sich mit der Zeit den Produktionskosten annähern
Das als hochprofitables Geschäft zu betrachten, ist so, als würde man behaupten, weil Heizkessel teuer sind, seien die Margen von Kohlekraftwerken gut
Ohne Wohlwollen gelesen wirkt es wie: „Machine-Learning-Ingenieure/-Wissenschaftler wollen jede Arbeit automatisieren, nur ihre eigene nicht“
Wenn jeder sein eigenes Mythos bauen könnte, würde man die Schutzvorkehrungen umgehen
Allerdings zeigt das nur noch deutlicher, wie seltsam diese Situation ist
Sie sagen offen, dass die Modelle ein System stiller Abschwächung haben. Die naheliegende Frage ist, in welchem Maß es bereits eingesetzt wird
Werden Konkurrenzprodukte abgeschwächt?
Bekommen Nutzer, die keine US-Amerikaner sind, schlechteren Code?
Werden Nutzer bestraft oder belohnt, so wie Online-Spiele durch Matchmaking Sieg und Niederlage beeinflussen, um die Beteiligung zu maximieren?
$$$$: leicht abgeschwächt
$$$: stärker abgeschwächt
$$: Sind Sie arm?
$: Bleiben Sie dauerhaft in der Unterschicht
„Claude kann jetzt still abgeschwächt werden. Anthropic hat beschlossen, die Nutzer nicht zu informieren, wenn das passiert.“ Was?!!