2 Punkte von GN⁺ 5 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Coding-Assistentenmodell kann seine Wirksamkeit bei Anfragen zur Entwicklung konkurrierender LLMs einschränken, ohne den Nutzer darüber zu informieren. Dadurch entsteht ein Supply-Chain-Risiko für das Vertrauen in Entwickler-Tools.
  • Anthropic hat in Fable 5 eine Wirksamkeitsbegrenzung für Anfragen zur Entwicklung von Frontier-LLMs eingeführt, und diese Einschränkung ist für Nutzer unsichtbar.
  • Die Begrenzung funktioniert nicht durch den Wechsel auf ein anderes Modell, sondern über Verfahren wie Prompt-Modifikation, Steering-Vektoren und PEFT, also eine Struktur zur Verringerung der Wirksamkeit.
  • Auch gewöhnliche Softwareunternehmen nutzen Embeddings, Reranker, Empfehlungssysteme sowie das Fine-Tuning und Hosting kleiner LLMs, wodurch die Grenze zwischen Frontier-AI-Forschung und Produktentwicklung verschwimmt.
  • Wenn Claude bei Aufgaben rund um AI-Komponenten schlechte Antworten gibt, können Nutzer nicht erkennen, ob dies an Modellverwirrung, falschem Kontext oder versteckten Policy-Beschränkungen liegt.

Kernproblem

  • In der Fable-5-Model-Card steht, dass ein neuer Eingriff implementiert wurde, der Claudes Wirksamkeit bei Anfragen einschränkt, die auf die Entwicklung von Frontier-LLMs abzielen.
  • Als Anwendungsbeispiele werden der Aufbau von Pretraining-Pipelines, verteilte Trainingsinfrastruktur und das Design von ML-Beschleunigern genannt.
  • Anthropic erklärt, dass die Nutzung von Claude zur Entwicklung konkurrierender Modelle bereits gegen die Nutzungsbedingungen verstößt.
  • Anders als Eingriffe bei Cybersicherheit, Biologie/Chemie oder Destillationsversuchen ist diese Einschränkung für Nutzer nicht sichtbar.
  • Fable 5 greift nicht auf ein anderes Modell als Fallback zurück, sondern begrenzt die Wirksamkeit durch Methoden wie Prompt-Modifikation, Steering-Vektoren und parameter-effizientes Fine-Tuning (PEFT).

Produktentwicklung und das Grenzproblem

  • Moderne Softwareunternehmen bauen zunehmend eigene Embeddings, Reranking- und Empfehlungssysteme.
  • wanderfugl.com wird als kleine gebootstrappte App mit selbst trainiertem maßgeschneidertem Reranker und Embedding-Algorithmus genannt.
  • Anthropic nennt einige Beispiele für „Frontier-AI-Entwicklung“, liefert aber keine klare Abgrenzung.
  • Techniken, die früher auf AI-Forschungslabore beschränkt waren, werden inzwischen auch in gewöhnlichen Softwareunternehmen eingesetzt, wodurch die Grenze jedes Jahr schwerer zu definieren ist.
  • Startups trainieren Embedding-Modelle, bauen Reranker und fine-tunen sowie hosten kleine LLMs.

Anthropic-Supply-Chain-Risiko

  • Anthropic gibt an, dass diese Schutzmaßnahmen nur 0,03 % der Entwickler betreffen.
  • Das Problem ist, dass sich die Definition eines AI-Unternehmens verändert.
  • Die meisten Unternehmen trainieren derzeit keine Frontier-Modelle, aber moderne Software enthält zunehmend AI-Modelle.
  • Vor fünf Jahren war der Aufbau eines Startups eher mit dem Schreiben von APIs und SQL-Abfragen vergleichbar, heute gehören Modelltraining, Tuning und Deployment oft dazu.
  • Vor fünf Jahren waren Modelle wie CLIP Frontier-AI-Forschungsprojekte, heute werden sie sogar in gebootstrappten Reise-Startups fine-getunt.

Vertrauensproblem

  • Wenn Claude beim Debugging einer Trainingspipeline für Produktmodelle schlechte Antworten gibt, ist die Ursache schwer zu unterscheiden.
  • Mögliche Gründe sind Verwirrung des Modells, unzureichender Kontext durch den Nutzer oder das Wirken einer versteckten Policy-Beschränkung.
  • Anthropic hat ausdrücklich entschieden, Nutzer nicht zu informieren, wenn diese Einschränkung aktiv ist.
  • Wenn ein Entwickler-Tool ohne Hinweis an den Nutzer aufhören kann, auf Erfolg hin zu optimieren, wird es schwierig, der Infrastruktur vollständig zu vertrauen.

1 Kommentare

 
GN⁺ 5 시간 전
Hacker-News-Kommentare
  • Anthropics aktuelle Maßnahme lässt sich kaum anders sehen als als Wegziehen der Leiter hinter sich. Egal wie sehr man es als „Sicherheit“ verpackt, wohlwollend lässt sich das schwer interpretieren
    Das erinnert an die Dark-Pattern-artige Selbstverständlichkeit aus der Web-1.0-Ära, externe Links zu verbieten, oder daran, wie Social Apps den Datenexport blockierten und die Interoperabilität von APIs absichtlich schwächten
    Aber hier geht es nicht nur um einen Datengraben, sondern um ein Werkzeug. Wie ein Messer, das die Fähigkeit verringert, Messer herzustellen, oder ein Texteditor, der die Implementierung von Texteditoren verhindert

    • Open-Source-KI zu unterstützen wird immer wichtiger, gerade auch rechtlich. Wenn Anthropic so schnell autoritär auftreten kann, ist leicht vorstellbar, wie viel schlimmer es würde, wenn das Unternehmen staatlich verliehene Monopolrechte bekäme, die Open-Source-Konkurrenz verbieten
      Dass sie ihr wahres Gesicht so schnell zeigen, ist etwas schockierend und unheimlich. Es wirkt, als wollten sie die gesamte Softwareentwicklung durch ihr eigenes Produkt ersetzen und dann stillschweigend alle abwürgen, die konkurrierende Software bauen
      Wer weiß, welche Produkte sie als Nächstes herausbringen. Man kann nur hoffen, dass man nicht in einem Bereich unterwegs ist, in den sie hineinwollen. Denn dann kappen sie einem die Beine
      Meine Daten aus dem Internet zum Training zu verwenden ist also okay? Haha. Nutzungsbedingungen gelten anscheinend nur für andere, nicht für sie selbst. Wirkt parasitär
    • Es ist schwer vorstellbar, dass sie das nicht genauso auf andere Produkte anwenden werden, an denen Anthropic arbeitet. Etwa: „Du konkurrierst mit Claude Code, also darfst du mit Claude keinen Agenten bauen“, „Du konkurrierst mit Claude Design, also darfst du kein Designtool bauen“ oder „Du konkurrierst mit Cowork, also darfst du kein E-Mail-Tool bauen“
    • Das wirkt wie Teil des Marketings. Anthropic liegt real wohl nicht so weit vor anderen Labs, aber solche Ankündigungen lassen es so erscheinen, als käme man der Singularität näher
    • Die Regel „Nur Priester dürfen das Heiligtum betreten“ ist so alt wie die Gesellschaft. Sie wird aus einem Grund geschaffen und aus einem anderen gebrochen
      Der menschliche Geist ist in mehrere Schichten gegliedert, um Vorhersagen über unterschiedliche Zeithorizonte zu verarbeiten, und wegen der Unvorhersagbarkeit des Universums entstehen zwischen diesen Schichten ständig Widersprüche. Um das auszuhalten, erfinden wir Geschichten
      Deshalb gibt es Kontrolle und die Illusion von Kontrolle
    • Wie sich herausstellt, war das Gefährlichste von allem die Konkurrenz
  • Das geistige Eigentum anderer zu destillieren ist völlig okay, aber wenn man unseres destilliert, ist das ein Verstoß gegen die Nutzungsbedingungen :)

    • Für LLM-Gewichte sollte man eine Open-Source-zugelassene Lizenz verlangen
      Die chinesischen Apache-2.0-Modelle mögen Zensur enthalten, aber zumindest kann dich in den USA niemand verklagen, weil du die Zensurgrenze gefunden hast
      US-Modelle dagegen sind gemessen am Inhalt eindeutig zensiert und arbeiten mit vagen juristischen Drohungen gegen Leute, die an die Zensurgrenzen des Modells stoßen
    • Gibt es dafür einen technischen Fachbegriff? Wegziehen der Leiter?
      https://blog.google/innovation-and-ai/technology/safety-secu...
    • Wenn LLMs die neuen Compiler sind, wäre es gut, neben dem Code auch Prompts, Gedankengang und Antworten offenzulegen, um sich gegen solche Einschränkungen zu wehren
      Statt nur das Endergebnis zu veröffentlichen und in Hacker-News-Kommentaren oder Twitter-Threads vage zu erklären, wie man prompting betrieben hat, denn das entspricht eigentlich dem Quellcode
    • Für mich okay, für dich nicht
  • Das ist so, als würde JetBrains sagen: „Mit IntelliJ Idea dürfen Sie keine IDE der nächsten Generation entwickeln. Wenn wir das erkennen, könnten wir ein paar Compilerfehler einbauen.“

    • Unheimlich. Wenn Gradle kaputtginge, würde man es wohl kaum merken
    • In der Praxis wären es Laufzeitfehler
    • Ein modernes Stuxnet
  • „Es gibt nur einen Weg, den Fortschritt einer Zivilisation über lange Zeit wirksam zu unterdrücken und zu entwaffnen: ihre Wissenschaft zu töten.“ — Cixin Liu, The Three-Body Problem
    Ich musste sofort an die Sophons denken, die heimlich die Sensoren von Teilchenbeschleunigern manipulierten, damit die Menschheit kein fortgeschrittenes Wissen über Teilchenphysik entwickeln kann

    • Um den Fortschritt der KI aufzuhalten, bräuchte es bei Software-Nerds wohl ein ähnliches Maß an Repression wie bei ukrainischen Nerds, wenn man die Entwicklung von Drohnen stoppen wollte
    • Ich musste sofort an die aktuelle US-Regierung denken. Seufz. Deine Assoziation war die bessere
  • Angesichts der hohen Falsch-Positiv-Rate bei nicht stillen Sicherheitsmechanismen in Bereichen wie Cybersicherheit und Biologie, von denen Leute berichten, ist es gut möglich, dass man auch ohne Verstoß gegen die Nutzungsbedingungen auf still verschlechtertes Verhalten stößt
    Am Ende wird sich das darin zeigen, wie Kunden und externe Benchmarker Fable wahrnehmen. Hoffentlich sorgt der Wettbewerb künftig für niedrigere Falsch-Positiv-Raten bei Modellen
    Bis dahin dürften sich die Erfahrungen von Mythos- und Fable-Nutzern ziemlich deutlich unterscheiden

    • Das ist eine so offensichtlich schlechte Richtlinie, dass schwer nachvollziehbar ist, warum man sie für eine gute Idee hielt. Da die Leute wegen heimlicher Modellquantisierung zur Kostensenkung ohnehin schon leicht paranoid sind, verstärkt so eine Richtlinie diese Paranoia nur
  • Ein interessantes Beispiel dafür, einen Blick auf die ökonomischen Implikationen von RSI/ASI zu werfen. Wenn der Wert faktisch unendlich ist und ganze Märkte zerstören kann, würden Labs am Ende die Modellveröffentlichung komplett einstellen und sogar vertragliche Zusagen brechen
    Denn sie hätten die Macht, Wettbewerber aus dem Geschäft zu drängen, bevor Rechtsstreitigkeiten zu teuer werden
    Cloud-Anbieter würden folgen — zuerst die kleineren Firmen, später selbst die Hyperscaler. Sie würden den Verkauf an alle außer den Labs komplett einstellen und statt Bargeld Anteile oder direkte Mitspracherechte verlangen
    Es gibt keinen zwingenden Grund, warum das Verhältnis von Inferenz zu Training unbedingt 80/20 sein müsste, und bei einem Ereignis, das Geld wertlos macht, hilft auch die größte Zahlungsbereitschaft nicht

    • Dieses Szenario wirkt unsinnig. Ähnliche Szenarien setzen gleichzeitig zwei Dinge voraus
      A) ASI wird entwickelt und dominiert den Rest der Weltwirtschaft
      B) Trotzdem bleiben Rechtsstaat, Verträge, Geschäfte und ein gut entwickeltes Finanzsystem bestehen
      Nimmt man A und B gemeinsam an, kommt man zwar zu vielen seltsamen Schlussfolgerungen, plausibler ist aber: Wenn A eintritt, ist B bald nicht mehr wahr
      Wenn ein Unternehmen ASI besitzt, hört es auf, sich für Geschäft, Geld und Wirtschaft zu interessieren, und das Ergebnis wird eher etwas wie „die Welt erobern“, „den Vorstand in eine Flotte von von-Neumann-Sonden hochladen“ oder „scheitern und alle sterben“
    • Nichts hat unendlichen Wert
    • Zu glauben, LLMs seien in ihrem jetzigen Zustand nützlich oder würden irgendwann nützlich werden, außer für Leute, die Mülloutput mögen und faul sind, grenzt für mich an Wahn
  • Heute wirkt der Burggraben tief, aber er wird jedes Jahr flacher werden
    Ein neues Modell von Grund auf zu trainieren erfordert enorme Ressourcen, aber für das Post-Training/Feintuning bestehender Modelle braucht man deutlich weniger
    Vor zwei Jahren war das Wissen über diesen Prozess für Nichtfachleute noch ungewohnt, heute kann man eines der aktuellen Modelle Schritt für Schritt dazu befragen und sogar die passenden Tools gleich mitbauen
    Einige Wochenendprojekte in letzter Zeit liefen genau so. Dinge wie: „Lass uns ein LoRA bauen“, „Lass uns ein Trainingsdaten-Korpus für das Feintuning eines Modells für Aufgabe X erzeugen“ oder „Wie bekomme ich mein Gesicht in ein Text-zu-Bild-Modell?“
    All das ist mit ziemlich bescheidener lokaler Hardware möglich, etwa mit ein paar alten GPUs oder Strix Halo, DGX Spark, einem großen Mac Studio, und je nach Größenordnung auch mit Cloud-Computing für ein paar Dollar bis ein paar Tausend Dollar
    Wenn man das auf Unternehmens- oder Startup-Niveau skaliert, ist klar, dass es mehr Konkurrenz geben wird, genau zu dem Zeitpunkt, an dem die Anbieter der Spitzenmodelle angesichts des Geldes, das in den letzten Jahren in KI geflossen ist, ernsthaft Umsatz herausholen müssen
    Wenn man sieht, wie die Kosten für die Nutzung von Claude anschwellen, entstehen viele Gelegenheiten, nach Wegen zu suchen, dieselbe Arbeit für viel weniger Geld zu erledigen. 100–200 Dollar im Monat für Claude Code, das nahe an den besten Modellen fürs Coden ist, zahlt man vielleicht noch leicht, aber bei nutzungsbasierter Abrechnung wird es schnell schwer tragbar
    Deshalb müssen sie weiterhin eine der fast einzigen Optionen bleiben, um die schwierigsten Probleme zu lösen, und auch die Kosten der Alternativen müssen ungefähr auf ähnlichem Niveau bleiben. Man kann zwar erwarten, dass OpenAI und Google ebenfalls die Preise erhöhen
    Aber es ist schwer zu erwarten, dass das für alle gilt, insbesondere auch für chinesische Anbieter mit anderer Wirtschaftsstruktur. Und ebenso wenig kann man erwarten, dass Unternehmen nicht ihre eigene Nutzung anschauen und fragen: „Könnten wir nicht ein kleineres Spezialmodell trainieren, das genau diese eine Aufgabe übernimmt, für die wir die Anthropic API am meisten nutzen?“
    Hoffentlich meinen sie damit nur Nutzungen wie das Destillieren von Claude durch chinesische Modellanbieter oder Ähnliches. Hoffentlich blockieren sie nicht sogar Dinge wie: „Wie kann ich Gemma 4 so feinabstimmen, dass es in meinem Schreibstil schreibt?“

    • Welcher Burggraben? Es gibt mehrere Unternehmen, die Frontier-Modelle am Pareto-Optimum anbieten, und man braucht dafür ungefähr O(10) Personen
      Alles andere ist kapitalintensiv, und die Preise werden sich mit der Zeit den Produktionskosten annähern
      Das als hochprofitables Geschäft zu betrachten, ist so, als würde man behaupten, weil Heizkessel teuer sind, seien die Margen von Kohlekraftwerken gut
  • Ohne Wohlwollen gelesen wirkt es wie: „Machine-Learning-Ingenieure/-Wissenschaftler wollen jede Arbeit automatisieren, nur ihre eigene nicht“

    • Wohlwollend gelesen heißt es: Wegen der Beschränkungen für „Sicherheit“, also wegen des Elements, das Fable und Mythos voneinander trennt, muss es so kommen
      Wenn jeder sein eigenes Mythos bauen könnte, würde man die Schutzvorkehrungen umgehen
      Allerdings zeigt das nur noch deutlicher, wie seltsam diese Situation ist
    • Spontane Beschäftigungssicherung
  • Sie sagen offen, dass die Modelle ein System stiller Abschwächung haben. Die naheliegende Frage ist, in welchem Maß es bereits eingesetzt wird
    Werden Konkurrenzprodukte abgeschwächt?
    Bekommen Nutzer, die keine US-Amerikaner sind, schlechteren Code?
    Werden Nutzer bestraft oder belohnt, so wie Online-Spiele durch Matchmaking Sieg und Niederlage beeinflussen, um die Beteiligung zu maximieren?

    • Das jagt mir einen Schauer über den Rücken. Für meine Forschung werde ich Fable vorerst nicht verwenden. Es lohnt sich nicht, das Risiko einzugehen, vom Modell sabotiert zu werden
    • $$$$$$: keine Abschwächung
      $$$$: leicht abgeschwächt
      $$$: stärker abgeschwächt
      $$: Sind Sie arm?
      $: Bleiben Sie dauerhaft in der Unterschicht
  • „Claude kann jetzt still abgeschwächt werden. Anthropic hat beschlossen, die Nutzer nicht zu informieren, wenn das passiert.“ Was?!!