Lokale KI sollte zum Standard werden

(unix.foo)

13 Punkte von GN⁺ 8 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Es ist inzwischen üblich geworden, App-Funktionen mit den APIs von OpenAI oder Anthropic zu verbinden, doch die Abhängigkeit von Cloud-gehosteten KI-Modellen führt dazu, dass Funktionen schon durch Serverausfälle oder Abrechnungsprobleme stillstehen und zugleich die Datenschutzlast steigt
Moderne Geräte verfügen mit Komponenten wie der Neural Engine über starke On-Device-Rechenleistung, die jedoch meist ungenutzt bleibt, während nur auf Serverantworten gewartet wird
So lassen sich etwa mit Apples FoundationModels-Framework KI-Funktionen wie Zusammenfassung, Klassifizierung und Extraktion direkt auf dem Gerät ohne Server umsetzen
Der native iOS client von The Brutalist Report erzeugt Artikelzusammenfassungen on-device über Apples lokale Modell-API, umgeht damit Server und macht Prompt- und Nutzerlogs, Vendor-Konten sowie Fußnoten zur Inhaltsaufbewahrung überflüssig
Lokale Modelle sind womöglich nicht so intelligent wie Cloud-Modelle, können aber für Datentransformations-Aufgaben wie Zusammenfassen, Klassifizieren, Extrahieren, Umschreiben und Normalisieren völlig ausreichen; Cloud-Modelle sollten nur dann genutzt werden, wenn sie wirklich nötig sind

Probleme der Abhängigkeit von Cloud-KI

Es verbreitet sich ein Trend, bei dem Entwickler App-Funktionen wahllos um API-Aufrufe an OpenAI oder Anthropic ergänzen
Dieser Ansatz macht Software anfällig, datenschutzfeindlich und grundsätzlich instabil
- Fällt der Server aus oder läuft die Kreditkarte ab, funktioniert die App nicht mehr
In dem Moment, in dem Nutzerinhalte an einen KI-Drittanbieter gestreamt werden, verändert sich der Charakter des Produkts selbst
- Damit gehen Fragen zu Datenspeicherung, Einwilligung, Auditierung, Lecks, behördlichen Anfragen und der Nutzung als Trainingsdaten einher
Man wird abhängig von Netzwerkzustand, Verfügbarkeit externer Vendoren, rate limit, Kontenabrechnung und dem Zustand des eigenen Backends, wodurch der Stack komplexer wird
Letztlich wird schon eine einzelne UX-Funktion zu einem kostenpflichtigen verteilten System
Funktionen, die lokal verarbeitet werden können, unnötig in die Cloud zu schicken, ist ein Eigentor

Warum lokale Geräte genutzt werden sollten

Die Chips in unseren Geräten sind heute unvergleichlich schneller als noch vor zehn Jahren, und die dedizierte Neural Engine liegt meist brach
- Im Vergleich dazu ist es unvernünftig, auf JSON-Antworten aus einer Serverfarm in Virginia zu warten
Das Ziel sollte nicht "AI everywhere" sein, sondern nützliche Software
Wenn sich eine Funktion lokal verarbeiten lässt, ist die Entscheidung für externe Abhängigkeiten selbst schon unnötiger Schaden

On-Device-Zusammenfassungen bei The Brutalist Report

The Brutalist Report ist ein News-Aggregator, der von Webdesign im Stil der 1990er inspiriert ist
Beim Bau des native iOS client war das Ziel, ein dichtes News-Leseerlebnis beizubehalten
Der iOS-Client bietet eine Headline-Liste mit starkem Kontrast, einen Reader Mode, der störende Webelemente entfernt, sowie eine optionale "intelligence"-Ansicht zum Zusammenfassen von Artikeln
Entscheidend ist, dass die Zusammenfassungen on-device über Apples lokale Modell-API erzeugt werden
Server werden umgangen; es braucht weder Prompt- oder Nutzerlogs noch Vendor-Konten oder Fußnoten wie „Inhalte werden 30 Tage gespeichert“
Es ist zu selbstverständlich geworden, davon auszugehen, dass jede KI-Nutzung serverseitig stattfindet; um das zurückzudrehen, braucht es branchenweite Anstrengungen
Einige Einsatzfälle verlangen die Intelligenz, die nur Cloud-gehostete Modelle liefern, aber das gilt nicht für alle Anwendungsfälle, daher ist sorgfältiges Abwägen nötig

Lokale KI-Werkzeuge im Apple-Ökosystem

Im Apple-Ökosystem wurde im vergangenen Jahr investiert, damit Entwickler integrierte lokale KI-Modelle leicht nutzen können

Der grundlegende Ablauf besteht darin, FoundationModels zu importieren, die Verfügbarkeit von SystemLanguageModel.default zu prüfen und dann mit LanguageModelSession einen Prompt zu formulieren und eine Antwort zu erhalten

import FoundationModels  

let model = SystemLanguageModel.default  
guard model.availability == .available else { return }  

let session = LanguageModelSession {  
  """  
  Provide a brutalist, information-dense summary in Markdown format.  
  - Use **bold** for key concepts.  
  - Use bullet points for facts.  
  - No fluff. Just facts.  
  """  
}  

let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
  articleText  
}  

let markdown = response.content

Lange Inhalte lassen sich in Klartext in Abschnitte von etwa 10.000 Zeichen aufteilen; aus jedem Chunk können knappe "facts only"-Notizen erstellt und in einem zweiten Durchgang zu einer finalen Zusammenfassung kombiniert werden
Solche Aufgaben passen gut zu lokalen Modellen
- Die Eingabedaten sind Inhalte, die der Nutzer ohnehin gerade liest, also bereits auf dem Gerät vorhanden
- Die Ausgabe ist leichtgewichtig
- Die Verarbeitung ist schnell und privat
- Es geht darum, eine gerade geladene Seite zusammenzufassen, nicht darum, neues Weltwissen zu erzeugen; dafür ist keine übermenschliche Intelligenz nötig
Lokale KI glänzt dann, wenn das Modell nicht das gesamte Universum durchsuchen soll, sondern Daten transformiert, die dem Nutzer bereits gehören

Wie Vertrauen entsteht

KI-Funktionen wie E-Mail-Zusammenfassungen, das Extrahieren von To-dos aus Notizen oder die Klassifizierung von Dokumenten gehören zu den Dingen, die Menschen wollen, denen sie aber nicht vertrauen
Der übliche Cloud-Ansatz macht aus all dem eine Vertrauensfrage: ob man Daten wirklich an einen Server schicken möchte
Lokale KI verändert diese Struktur, indem sie Daten, die bereits auf dem Gerät liegen, genau dort verarbeitet
Nutzervertrauen entsteht nicht durch eine 2.000 Wörter lange Datenschutzerklärung
Vertrauen entsteht durch eine Architektur, die eine solche Datenschutzerklärung gar nicht erst nötig macht

Strukturierte Ausgabe und typbasierte KI

Eine der guten jüngsten Entscheidungen von Apple war es, „AI output“ von unstrukturierten Textblöcken zu typisierten Daten weiterzuentwickeln
Statt „das Modell um JSON bitten und hoffen, dass es gut herauskommt“ ist es das neuere und bessere Muster, ein Swift-struct zu definieren, das das gewünschte Ergebnis repräsentiert

Jedem Feld wird eine Anleitung in natürlicher Sprache mitgegeben, und das Modell erzeugt dann eine Instanz dieses Typs

import FoundationModels  

@Generable  
struct ArticleIntel {  
  @Guide(description: "One sentence. No hype.") var tldr: String  
  @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
  @Guide(description: "Comma-separated keywords.") var keywords: [String]  
}  

let session = LanguageModelSession()  
let response = try await session.respond(  
  to: "Extract structured notes from the article.",  
  generating: ArticleIntel.self  
) {  
  articleText  
}  

let intel = response.content

So muss die UI keine Bullet-Points aus Markdown herauskratzen oder darauf hoffen, dass sich das Modell an ein JSON-Schema erinnert
Die App kann echte Typen mit echten Feldern empfangen und konsistent rendern
Dadurch entstehen strukturierte Ausgaben, die eine App tatsächlich verwenden kann, und der gesamte Prozess läuft lokal
Das ist nicht nur eine bequeme Schnittstelle, sondern eine Verbesserung der Engineering-Qualität
In einer Local-First-App wird KI dadurch nicht zu einem netten Gimmick, sondern zu einem „vertrauenswürdigen Subsystem“

Entgegnung auf „Lokale Modelle sind weniger intelligent“

Es stimmt, dass lokale Modelle nicht so intelligent sind wie Cloud-Modelle, doch für die meisten App-Funktionen ist das nicht entscheidend
Die meisten Funktionen verlangen nicht, Shakespeare zu schreiben oder Quantenmechanik zu erklären, sondern Zusammenfassen, Klassifizieren, Extrahieren, Umschreiben oder Normalisieren zuverlässig auszuführen
Für solche Aufgaben sind lokale Modelle mehr als gut genug
Wer lokale Modelle als Ersatz für das gesamte Internet einsetzt, wird enttäuscht; nutzt man sie jedoch als „Datentransformator“ innerhalb einer App, fragt man sich schnell, warum man die Daten je an einen Server geschickt hat
Cloud-Modelle sollten nur dann eingesetzt werden, wenn sie wirklich gebraucht werden, und Nutzerdaten sollten an Ort und Stelle bleiben
KI sollte nicht durch das Ankleben einer Chatbox genutzt werden, sondern als echtes Subsystem mit typisierter Ausgabe und vorhersagbarem Verhalten

Datenschutz und Vertrauensaufbau

Es gibt zahlreiche KI-Funktionen wie E-Mail-Zusammenfassungen, das Extrahieren von Action Items aus Notizen und die Klassifizierung von Dokumenten, die Menschen wollen, denen sie aber nicht vertrauen
Der Cloud-Ansatz verwandelt all dies in ein Vertrauensexperiment: „Bitte senden Sie Ihre Daten an unseren Server, wir behandeln sie schon ordentlich“
Lokale KI verändert das grundlegend — die Daten sind bereits auf dem Gerät und werden direkt dort verarbeitet
Vertrauen wird nicht dadurch aufgebaut, dass man eine 2.000 Wörter lange Datenschutzerklärung schreibt, sondern durch eine Struktur, die eine solche Richtlinie gar nicht erst nötig macht

1 Kommentare

GN⁺ 8 시간 전

Hacker-News-Meinungen

Das Gefühl, das Mainstream-Nutzer derzeit gegenüber lokaler AI haben, ähnelt dem, das sie vor einigen Jahrzehnten gegenüber Open Source hatten
Bei manchen Produkten lagen kostenpflichtige Lösungen deutlich vorn, sodass Open Source oft komplett ignoriert wurde, nach dem Motto: „Warum überhaupt?“
Dann kamen abhängigmachende SaaS- und Plattformmodelle auf, und heute ist ziemlich klar, dass diese Einschätzung größtenteils falsch war
Die Abhängigkeit von Anthropic und OpenAI beim Coden ist absurd hoch, aber viele stört das nicht oder sie hoffen nur, dass China nicht aufhört, offene Gewichte zu veröffentlichen
Das Geschäftsmodell offener Gewichte ist noch sehr neu, durchmischt mit Machtkämpfen zwischen Staaten und Forschungseinrichtungen, und es bewegen sich absurde Summen ohne nennenswerte reale Kontrolle
Im Moment steht enorm viel Wert fast allen offen, aber es ist eine riskante Wette, die aus Gründen, die wir nicht kontrollieren können, jederzeit ohne Vorwarnung enden könnte
- Ich sehe nicht, was uns daran hindern sollte, die derzeit besten Open-Weight-LLMs dauerhaft auf Consumer-Hardware laufen zu lassen
  Für 95 % der Anwendungsfälle reicht das aus, und ein Verfallsdatum gibt es nicht
  Das „Risiko“ besteht nur darin, dass man das Modell der nächsten Generation nicht nutzen kann, und die Auswirkungen davon scheinen sehr gering
- Ich weiß nicht, was das Geschäftsmodell von Open-Weight-AI sein soll, eigentlich sehe ich keines
  Im besten Fall dient es als Werbung, um fortgeschrittenere Modelle zu verkaufen
  Der große Unterschied zu Open Source ist, dass man ein LLM nicht nur mit Freizeit und gutem Willen trainieren kann
  Man braucht viele Daten und enorme Rechenressourcen
  Ich hoffe, dass ich damit falsch liege, denn eine Zukunft in Richtung Open Weights wäre mir deutlich lieber
- Es sollte kein Gegensatz lokal gegen Cloud-AI sein
  Lokale AI sollte als eigenes Produkt behandelt werden, und wenn man lokal alles erledigt, wofür man wirklich keine Cloud-AI braucht, und Cloud-AI nur als Ausweichoption nutzt, würden die Kosten stark sinken
- Ich warte darauf, dass die US-Regierung ihre eigene lokale AI entwickelt
  Da sie mit Steuergeldern finanziert wäre, könnte sie am Ende als Open Source veröffentlicht werden, und die NSA hat Jahrzehnte an Internetdaten, sodass ein darauf trainiertes Open-Weight-Modell so gut werden könnte wie die Modelle mancher Unternehmen
- Wenn Kosten wichtig werden oder eine kostenlose, aber schwächere Option attraktiv und zugänglich wird, etwa in Form eines On-Device-Agenten mit Apple-artiger User Experience, dann würden Nutzer ziemlich deutlich in Richtung lokal wechseln
  Wenn man an Dinge wie Hintergrundentfernung bei Fotos oder PDF-OCR denkt, nutzt im Alltag praktisch niemand dafür einen kostenpflichtigen Dienst
Dieser Moment wird kommen, und er ist gar nicht mehr weit weg
Der Trend ist bereits gesetzt. Anfangs konnten leistungsfähige LLMs nur in großen Rechenzentren laufen, inzwischen sind wir klar bei mehreren Servern mit ein paar H100-Karten angekommen, und es geht immer stärker in Richtung „MacBook Pro oder Strix Halo mit 128 GB VRAM“
Innerhalb des nächsten Jahres wird in Unternehmen das Muster zum Standard werden, mit „teurem Remote-LLM planen, mit lokalem, langsamerem, aber schneller als Menschen arbeitendem LLM ausführen“, und danach wird es sich schrittweise zu „alles lokal mit LLMs reicht aus“ verschieben
Am Ende entsteht dieselbe Balance wie bei klassischer Cloud: selbst hosten oder für Flexibilität und Geschwindigkeit bezahlen
Die Frage ist, wie stark lokales Hosting den aktuellen Rechenressourcen-Hype abwürgen wird und was das für den Markt bedeutet
- Dieser Zeitpunkt ist schon jetzt da
  Ich lasse quantisierte Qwen- und Gemma-Modelle auf einem drei Jahre alten, ordentlichen Gaming-PC laufen, ungefähr mit RTX 3080 12GB und 32 GB RAM
  Es ist langsam und das Kontextfenster ist klein, aber mit einer passenden Laufzeitumgebung kann es Reisefotos durchsuchen und klassifizieren
  Es kann OCR für Belege machen, Ausgaben zusammenfassen, einfache Fragen beantworten, Code analysieren und bei geringem Kontextbedarf auch Code schreiben
  Wenn man sich um die VS-Code-Integration kümmert, könnte man wahrscheinlich auch eine brauchbare Autovervollständigung hinbekommen
  „MacBook Pro oder Strix Halo mit 128 GB VRAM“ sehe ich als minimale brauchbare Konfiguration für agentisches Coding
  Momentan läuft es allerdings umgekehrt. Die Cloud-Variante ist um Größenordnungen günstiger als Self-Hosting, weil durch Teilen eine viel höhere Serverauslastung möglich ist
  Wenn ein Unternehmen 500.000 Dollar für Hardware ausgibt, um GLM 5.1 zu betreiben, bekommt es Datensicherheit, Flexibilität und keine Zensur, aber im Vergleich zu einem Anthropic-Sitzplatzmodell ist das viel zu teuer
- Die größte Wirkung lokaler Modelle könnte schlicht darin liegen, zu verhindern, dass Remote-Inferenz zur einzigen Option wird
Direkt ein paar Zeilen weiter unten wurde bereits ein Aufstand daraus gemacht, dass Chrome ein lokales LLM-Modell für lokale Inferenz eingebaut hat, das einige GB Speicherplatz braucht
Man wird also kritisiert, wenn man es tut, und genauso, wenn man es nicht tut
- Man sollte nur nicht ungefragt Bandbreite und Speicherplatz im Gigabyte-Bereich verbrauchen
- Wenn ich ein Modell brauche, lade ich es selbst herunter
  Genau das habe ich neulich gemacht, um mit Bildgenerierung herumzuspielen
- Das ist eine etwas unredliche Auslegung
  Die Leute ärgern sich nicht über die Installation lokaler Modelle an sich, sondern über den Mangel an Nutzerautonomie
  Man darf es eben nicht heimlich installieren, sondern sollte die Wahl lassen, ob das Modell heruntergeladen werden soll
  Das ist nicht schwer, und alle anderen lokalen Optionen funktionieren genauso
- Seltsame Auslegung
  Wenn es kein Opt-in ist oder dem Browser aufgezwungen wird, ist es schlecht
  Niemand regt sich darüber auf, dass eine App, die ein lokales LLM ausführt, die dafür nötigen Daten herunterlädt
- Man sollte die Kommentare lesen, um zu sehen, worüber die Leute sich tatsächlich beschweren
  Dieser Kommentar behandelt den Charakter der Diskussion ziemlich unredlich
Ich finde, die Diskussion über Private AI und die über lokale AI sollte man trennen
Die realistische Option für große LLMs sind online betriebene große Server oder Serververbünde, aber das heißt nicht, dass nur private Unternehmen sie betreiben dürfen
Eine selbst gehostete Inferenzlösung mit guten Garantien für Tenant-Isolation, idealerweise Zero Trust, und ausreichend einfacher Bereitstellung und Wartung, gewissermaßen ein Plex für AI, wäre eine Option für Privatsphäre
Ehrlich gesagt habe ich das überhaupt nicht untersucht und weiß nicht, wie realistisch das ist. Vielleicht existiert es schon und ich muss nur dem richtigen Discord-Server beitreten
Nebenbei, auch wenn man das hier kaum noch extra sagen muss: Erstaunlich ist, dass offene Modelle so nah an die besten kommerziellen Modelle herankommen, dass man sagen kann, der schwierigste Teil sei im Wesentlichen schon gelöst
- Eine weitere Option ist verifizierbare private Inferenz, bei der Open-Source-Modelle in einer sicheren Cloud-Enklave laufen
  Dabei kommt vertrauliches Rechnen von NVIDIA zum Einsatz, der Enklaven-Code ist Open Source, und per Remote Attestation beim Verbindungsaufbau wird verifiziert, dass der Inferenzanbieter keine Daten einsehen kann – kryptografisch beweisbar
  Tinfoil: https://tinfoil.sh/ ist ein gutes Beispiel. Offenlegung der Interessenlage: Ich bin Mitgründer
  Mehr zur Funktionsweise gibt es hier: https://docs.tinfoil.sh/verification/verification-in-tinfoil
  Dass offene Modelle an die besten kommerziellen Modelle herankommen, stimmt für bestimmte Aufgaben weitgehend
  Zum Beispiel kann ein Chat-Interface die höhere Modellintelligenz oberhalb des Niveaus der besten Open-Source-Modelle schon heute oft kaum noch sinnvoll ausnutzen
  Coding-Laufzeitumgebungen profitieren aber weiterhin von höherer Modellintelligenz, insbesondere weil bei Anbietern wie claude-code oder codex die Coding-Umgebung des Anbieters und die Tool-Calling-Schnittstelle des Modells per Reinforcement Learning eng aufeinander abgestimmt sind – das ist ein weiterer Grund, warum es Unterschiede gibt, selbst wenn man die Modellintelligenz kontrolliert
  Auch der Gründer von opencode, einer Open-Source-Coding-Laufzeitumgebung mit Unterstützung für mehrere Modellanbieter, hat sich kürzlich darüber beklagt, wie schwierig es ist, die Laufzeitumgebung jeweils gut auf einzelne Anbieter abzustimmen: https://x.com/thdxr/status/2053290393727324313
Die Beispiele im Beitrag bestätigen für mich, dass lokale Modelle nicht mit Frontier-Modellen konkurrieren müssen, um erfolgreich zu sein – sie müssen nur gut genug sein
Sie müssen kleine Aufgaben gut erledigen und auf Consumer-Geräten vernünftig laufen
Wenn sie auch auf Smartphones laufen, umso besser
Nach meinen Experimenten mit lokalen LLMs hilft ein größeres Modell zwar, aber der eigentliche Faktor, der ein fast nutzloses Modell in ein nützliches verwandelt, war die Fähigkeit zum Tool-Einsatz
Websuche und das Abrufen von Webseiten zu erlauben, hat Halluzinationen viel stärker reduziert als ein größeres Modell, und das Problem des abgeschnittenen Trainingszeitpunkts entfällt ebenfalls
Natürlich können größere Modelle Tools womöglich besser nutzen, aber oft reichen auch kleinere Modelle aus
Ich habe eine Demo gebaut, was man mit der neuen Prompt API von Chrome machen kann, die lokale Modelle nutzt: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
Wie im Originalbeitrag entfaltet sie ihre Stärke in einer begrenzten Umgebung, in der Daten transformiert werden, die dem Nutzer gehören
Für offenere Aufgaben ist sie eindeutig weniger nützlich
- Ich würde Chrome Prompt API nicht als gutes Beispiel für ein lokales LLM empfehlen
  Es ist okay, aber wirklich schwach
  8B-Modelle von vor einem Jahr waren in mancher Hinsicht besser, und neuere Modelle sind spürbar stärker geworden
- „Werbetexte anhand des umgebenden Kontexts umschreiben“ – genau, das ist also der Plan
  Ohne lokales Modell und ohne Webseite geht es nicht
  Während alle anderen für Stromverbrauch und Hardwareverschleiß zahlen, bekommen die Anbieter mehr, bessere und billigere Adtech-Ausbeutung und Überwachung
- Man lässt also ein LLM laufen, um Datentransformationen zu machen, für die deterministische Verfahren viel besser geeignet wären, und benutzt dafür ein 1000-Watt-Netzteil
  Ganz großartig
Bestehende Akteure werden alles daransetzen, lokal zu verhindern, aber es gibt einige technische Gründe dafür, dass kleine, spezialisierte Modelle am Ende zum Standard werden könnten
Dann würde lokal automatisch nachziehen
Der Originalbeitrag fokussiert darauf, ob Nutzer für das, was sie wollen, überhaupt große Modelle brauchen
Es gibt aber auch Gründe dafür, dass große Modelle möglicherweise nie wirklich zuverlässig genug werden, außer wenn a) die mechanistische Interpretierbarkeit weit genug reift oder b) Multi-Agenten-Systeme ohnehin komplett multi-modellig werden
Im Fall von a könnte Fortschritt in der mechanistischen Interpretierbarkeit zwar Probleme großer Modelle beheben, zugleich aber auch ermöglichen, integrierte Repräsentationen zu gewinnen und aus riesigen Modellen nur die nützlichen Teile herauszuschneiden
Man würde nur das Nötige übernehmen und den Rest verwerfen, um Kosten und Angriffsfläche zu reduzieren
Braucht man nur Logik? Nur Vision? Dann nimmt man eben genau diesen Teil aus dem riesigen Monster
Die Fähigkeit, Probleme zu isolieren, wird schwerlich kommen, ohne auch funktionale Subsysteme isolieren zu können
Im Fall von b muss man sich nur Kategorien wie Evil Vectors oder auf Tool-Nutzung spezialisierte Halluzinationen ansehen
Ohne eine vollständige Lösung für Helpful/Honest/Harmless-Alignment ist es gut möglich, dass Kreativität und Strenge sowie viele andere Faktoren grundsätzlich in Spannung zueinander stehen
Wenn man für alles ohnehin mehrere Modelle braucht, warum dann noch ein teures, riesiges Universalmodell
Spezialisierung erzeugt damit ebenfalls Druck, alles auf das Minimum an vertrauenswürdigen Expertenmodellen zu reduzieren
Mein Problem mit LLMs ist – unabhängig von der philosophischen Seite und den wirtschaftlichen Folgen –, dass es schwierig scheint, funktionsfähige Modelle lokal zu trainieren
Spielzeug-LLMs sind machbar, aber wirklich nützliche eher nicht
Man braucht nicht nur enorme Rechenleistung, sondern meist auch Datensätze, die größtenteils illegal beschafft wurden
- Das wirkt zu pessimistisch
  Ich bin persönlich vielleicht nicht besonders intelligent, aber um die Intelligenz zu bekommen, die ich heute habe, musste ich nicht alle jemals geschriebenen Bücher, alle Wikipedia-Artikel, alle Blogbeiträge, alle Referenzhandbücher und jede einzelne Codezeile trainieren
  Nicht einmal 1 % davon, ja nicht einmal 0,00000000001 %
  Es ist offensichtlich, dass Text selbst keine Voraussetzung für Intelligenz ist
  Wenn schon meine lose Beobachtung der Umgebung über etwa 20 Jahre an Intelligenz heranreicht, dann ist das ein starkes Indiz dafür, dass der nötige Datensatz einfach aus Sensoren und der umgebenden Welt besteht
  Natürlich startet das menschliche Gehirn nicht bei null; es gab Millionen Jahre Evolution, um den Boden zu bereiten, in dem Intelligenz Wurzeln schlagen kann
  Aber diese Grundstruktur ist ziemlich allgemein und scheint nicht von einem bestimmten Trainingssatz abzuhängen
  Vielleicht kann man sie auch künstlich evolvieren lassen
- Mit dem heutigen Stand der Technik geht das noch nicht für ein vollständiges Modell, aber LoRA eignet sich hervorragend für Finetuning und lässt sich auf einem leistungsfähigen Gaming-Rechner in wenigen Stunden erstellen
  Solange das Basismodell meine Sprache unterstützt, könnte ich wahrscheinlich mit der freien Rechenleistung meiner vorhandenen Geräte pro Monat einige LoRAs trainieren
  Wenn normale Heimcomputer in Zukunft Fähigkeiten auf heutigem Serverniveau haben, wird man zu Hause auch vollständige LLMs trainieren können
- Das ist wichtig, weil ein Modell auch dann noch ein proprietäres Modell sein kann, wenn es lokal läuft
  Ich habe keinerlei Einfluss darauf, womit es trainiert wurde, wie die Trainingsdaten gelabelt wurden, welche Guardrails es gibt oder welche Biases enthalten sind
- Es gibt viele Technologien, die man lokal nicht reproduzieren kann, und ich glaube nicht, dass LLMs da grundsätzlich anders sind
  Wie bei allem anderen wird es große LLM-Hersteller, kleine LLM-Hersteller, handwerkliche LLM-Bauer, LLM-Enthusiasten und LLM-Konsumenten geben
- Das hängt vom Bereich ab
  Es gibt ziemlich viele Anwendungsfälle, in denen man die nötigen Trainingsdaten für private oder nichtkommerzielle Nutzung beschaffen kann
  Ab dann ist es nur noch eine Frage von Rechenaufwand und Zeit, und wenn man bereit ist zu warten, kann man auch mit Consumer-Hardware nützliche Modelle bauen
Es stimmt schon, dass man „Cloud-Modelle nur nutzen sollte, wenn sie wirklich nötig sind“, aber das Problem ist, dass es viel einfacher ist, subventionierte State-of-the-Art-Modelle zu verwenden, als Zeit damit zu verbringen, lokale Modelle richtig einzurichten
Das ist mir bei Coding-Agenten gerade erst klar geworden
Man muss nicht immer die neueste Version auf xhigh nutzen, aber am Ende tut man es doch
Weil man die Arbeit in kürzerer Zeit, mit weniger Aufwand und faktisch zum gleichen Preis erledigt bekommt
Erst wenn große Anbieter anfangen, wirklich nach Tokenverbrauch abzurechnen, wird es vermutlich ernsthafte Bemühungen um lokale AI geben
- Dass State-of-the-Art-Modelle einfacher zu nutzen sind, ist kein Problem, sondern ein Feature
  Ich habe ungefähr acht Tabs mit Anbietern auf kostenloser Stufe offen, und ChatGPT, Claude und Gemini bilden dabei die Spitze
  Ich kann eines bis zum Limit nutzen und dann problemlos zum nächsten wechseln
  So kann ich den ganzen Tag lang bestimmte Funktionen oder Klassen in meinem Code implementieren lassen
  Weil ich tatsächlich weiß, wie man Software schreibt und entwirft, muss ich nicht ständig denselben Agenten erneut laufen lassen, um an einem Tag alles zu erzeugen
  Schon mit Web-Chatbots und Copy-and-Paste kann ich tausende Zeilen Code pro Stunde erzeugen, dabei ein starkes mentales Modell meines Codes behalten und die nötigen Teile selbst anpassen
  Genau das habe ich heute Morgen in einem Python-Projekt gemacht
  Weil ich entworfen habe, was ich brauche, bestand jede Generierung darin, nach genau einer Funktion zu fragen, und als ich am Morgen noch etwas ergänzen musste, habe ich den Chatbot gar nicht gefragt, sondern bin direkt an die richtige Stelle gegangen und habe es selbst korrigiert
  Wenn man alles aus einer Spezifikation komplett generieren lässt, geht das nicht
- Der Weg des geringsten Widerstands gewinnt meistens
  Besonders dann, wenn der Preis die tatsächlichen Kosten verschleiert
- Ich sehe bei lokalen Modellen keine guten Ergebnisse
  Jedes Mal, wenn ein Beitrag über LLMs erscheint, behaupten in den Kommentaren viele sehr überzeugt, dass sie mit aktuellen DeepSeek/Qwen usw. Ergebnisse auf Opus-Niveau erzielen, aber meine Erfahrung ist völlig anders
  Open-Source-Modelle brechen im Vergleich zu Claude völlig ein, sobald man ihnen auch nur etwas komplexere Aufgaben gibt
  Ich frage mich, ob wir nicht eine ähnliche Situation wie bei Linux in den 90ern erleben
  Es funktionierte irgendwie, war aber für Heimanwender überhaupt nicht bereit, und trotzdem haben viele einem aus ideologischen Gründen ins Gesicht gesagt, alles sei in Ordnung
Die Leute versuchen tatsächlich, „die beste Software“ zu bauen
Die KI-donquichottischen Akzelerationisten sind unter den Menschen, die Software bauen, eher eine laute Minderheit, und wenn man Online-APIs lokalen Systemen vorzieht, ist das meistens keine Faulheit von Entwicklern, sondern eine Entscheidung für die Nutzer
Im Moment kann man mit proprietärer AI mehr Dinge besser erledigen als mit lokalen Modellen
Daran führt kein Weg vorbei
Selbst wenn lokale AI besser wird, bleibt es oft eine lohnende Investition, an der Front der LLM-Leistung zu sein
Die meisten Menschen akzeptieren ein Produkt nur, wenn es erstklassig und extrem bequem ist
Diese Hürde ist hoch, und lokale AI nimmt sie oft nicht
Diese HN-Fixierung darauf, alle Nutzer als Open-Source-, Privacy-First-, Self-Hosting-Linux-Fanatiker zu behandeln, ist peinlich altbacken