Lokale KI sollte zum Standard werden
(unix.foo)- Es ist inzwischen üblich geworden, App-Funktionen mit den APIs von OpenAI oder Anthropic zu verbinden, doch die Abhängigkeit von Cloud-gehosteten KI-Modellen führt dazu, dass Funktionen schon durch Serverausfälle oder Abrechnungsprobleme stillstehen und zugleich die Datenschutzlast steigt
- Moderne Geräte verfügen mit Komponenten wie der Neural Engine über starke On-Device-Rechenleistung, die jedoch meist ungenutzt bleibt, während nur auf Serverantworten gewartet wird
- So lassen sich etwa mit Apples FoundationModels-Framework KI-Funktionen wie Zusammenfassung, Klassifizierung und Extraktion direkt auf dem Gerät ohne Server umsetzen
- Der native iOS client von The Brutalist Report erzeugt Artikelzusammenfassungen on-device über Apples lokale Modell-API, umgeht damit Server und macht Prompt- und Nutzerlogs, Vendor-Konten sowie Fußnoten zur Inhaltsaufbewahrung überflüssig
- Lokale Modelle sind womöglich nicht so intelligent wie Cloud-Modelle, können aber für Datentransformations-Aufgaben wie Zusammenfassen, Klassifizieren, Extrahieren, Umschreiben und Normalisieren völlig ausreichen; Cloud-Modelle sollten nur dann genutzt werden, wenn sie wirklich nötig sind
Probleme der Abhängigkeit von Cloud-KI
- Es verbreitet sich ein Trend, bei dem Entwickler App-Funktionen wahllos um API-Aufrufe an OpenAI oder Anthropic ergänzen
- Dieser Ansatz macht Software anfällig, datenschutzfeindlich und grundsätzlich instabil
- Fällt der Server aus oder läuft die Kreditkarte ab, funktioniert die App nicht mehr
- In dem Moment, in dem Nutzerinhalte an einen KI-Drittanbieter gestreamt werden, verändert sich der Charakter des Produkts selbst
- Damit gehen Fragen zu Datenspeicherung, Einwilligung, Auditierung, Lecks, behördlichen Anfragen und der Nutzung als Trainingsdaten einher
- Man wird abhängig von Netzwerkzustand, Verfügbarkeit externer Vendoren, rate limit, Kontenabrechnung und dem Zustand des eigenen Backends, wodurch der Stack komplexer wird
- Letztlich wird schon eine einzelne UX-Funktion zu einem kostenpflichtigen verteilten System
- Funktionen, die lokal verarbeitet werden können, unnötig in die Cloud zu schicken, ist ein Eigentor
Warum lokale Geräte genutzt werden sollten
- Die Chips in unseren Geräten sind heute unvergleichlich schneller als noch vor zehn Jahren, und die dedizierte Neural Engine liegt meist brach
- Im Vergleich dazu ist es unvernünftig, auf JSON-Antworten aus einer Serverfarm in Virginia zu warten
- Das Ziel sollte nicht "AI everywhere" sein, sondern nützliche Software
- Wenn sich eine Funktion lokal verarbeiten lässt, ist die Entscheidung für externe Abhängigkeiten selbst schon unnötiger Schaden
On-Device-Zusammenfassungen bei The Brutalist Report
- The Brutalist Report ist ein News-Aggregator, der von Webdesign im Stil der 1990er inspiriert ist
- Beim Bau des native iOS client war das Ziel, ein dichtes News-Leseerlebnis beizubehalten
- Der iOS-Client bietet eine Headline-Liste mit starkem Kontrast, einen Reader Mode, der störende Webelemente entfernt, sowie eine optionale "intelligence"-Ansicht zum Zusammenfassen von Artikeln
- Entscheidend ist, dass die Zusammenfassungen on-device über Apples lokale Modell-API erzeugt werden
- Server werden umgangen; es braucht weder Prompt- oder Nutzerlogs noch Vendor-Konten oder Fußnoten wie „Inhalte werden 30 Tage gespeichert“
- Es ist zu selbstverständlich geworden, davon auszugehen, dass jede KI-Nutzung serverseitig stattfindet; um das zurückzudrehen, braucht es branchenweite Anstrengungen
- Einige Einsatzfälle verlangen die Intelligenz, die nur Cloud-gehostete Modelle liefern, aber das gilt nicht für alle Anwendungsfälle, daher ist sorgfältiges Abwägen nötig
Lokale KI-Werkzeuge im Apple-Ökosystem
- Im Apple-Ökosystem wurde im vergangenen Jahr investiert, damit Entwickler integrierte lokale KI-Modelle leicht nutzen können
- Der grundlegende Ablauf besteht darin,
FoundationModelszu importieren, die Verfügbarkeit vonSystemLanguageModel.defaultzu prüfen und dann mitLanguageModelSessioneinen Prompt zu formulieren und eine Antwort zu erhaltenimport FoundationModels let model = SystemLanguageModel.default guard model.availability == .available else { return } let session = LanguageModelSession { """ Provide a brutalist, information-dense summary in Markdown format. - Use **bold** for key concepts. - Use bullet points for facts. - No fluff. Just facts. """ } let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) { articleText } let markdown = response.content - Lange Inhalte lassen sich in Klartext in Abschnitte von etwa 10.000 Zeichen aufteilen; aus jedem Chunk können knappe "facts only"-Notizen erstellt und in einem zweiten Durchgang zu einer finalen Zusammenfassung kombiniert werden
- Solche Aufgaben passen gut zu lokalen Modellen
- Die Eingabedaten sind Inhalte, die der Nutzer ohnehin gerade liest, also bereits auf dem Gerät vorhanden
- Die Ausgabe ist leichtgewichtig
- Die Verarbeitung ist schnell und privat
- Es geht darum, eine gerade geladene Seite zusammenzufassen, nicht darum, neues Weltwissen zu erzeugen; dafür ist keine übermenschliche Intelligenz nötig
- Lokale KI glänzt dann, wenn das Modell nicht das gesamte Universum durchsuchen soll, sondern Daten transformiert, die dem Nutzer bereits gehören
Wie Vertrauen entsteht
- KI-Funktionen wie E-Mail-Zusammenfassungen, das Extrahieren von To-dos aus Notizen oder die Klassifizierung von Dokumenten gehören zu den Dingen, die Menschen wollen, denen sie aber nicht vertrauen
- Der übliche Cloud-Ansatz macht aus all dem eine Vertrauensfrage: ob man Daten wirklich an einen Server schicken möchte
- Lokale KI verändert diese Struktur, indem sie Daten, die bereits auf dem Gerät liegen, genau dort verarbeitet
- Nutzervertrauen entsteht nicht durch eine 2.000 Wörter lange Datenschutzerklärung
- Vertrauen entsteht durch eine Architektur, die eine solche Datenschutzerklärung gar nicht erst nötig macht
Strukturierte Ausgabe und typbasierte KI
- Eine der guten jüngsten Entscheidungen von Apple war es, „AI output“ von unstrukturierten Textblöcken zu typisierten Daten weiterzuentwickeln
- Statt „das Modell um JSON bitten und hoffen, dass es gut herauskommt“ ist es das neuere und bessere Muster, ein Swift-
structzu definieren, das das gewünschte Ergebnis repräsentiert - Jedem Feld wird eine Anleitung in natürlicher Sprache mitgegeben, und das Modell erzeugt dann eine Instanz dieses Typs
import FoundationModels @Generable struct ArticleIntel { @Guide(description: "One sentence. No hype.") var tldr: String @Guide(description: "3–7 bullets. Facts only.") var bullets: [String] @Guide(description: "Comma-separated keywords.") var keywords: [String] } let session = LanguageModelSession() let response = try await session.respond( to: "Extract structured notes from the article.", generating: ArticleIntel.self ) { articleText } let intel = response.content - So muss die UI keine Bullet-Points aus Markdown herauskratzen oder darauf hoffen, dass sich das Modell an ein JSON-Schema erinnert
- Die App kann echte Typen mit echten Feldern empfangen und konsistent rendern
- Dadurch entstehen strukturierte Ausgaben, die eine App tatsächlich verwenden kann, und der gesamte Prozess läuft lokal
- Das ist nicht nur eine bequeme Schnittstelle, sondern eine Verbesserung der Engineering-Qualität
- In einer Local-First-App wird KI dadurch nicht zu einem netten Gimmick, sondern zu einem „vertrauenswürdigen Subsystem“
Entgegnung auf „Lokale Modelle sind weniger intelligent“
- Es stimmt, dass lokale Modelle nicht so intelligent sind wie Cloud-Modelle, doch für die meisten App-Funktionen ist das nicht entscheidend
- Die meisten Funktionen verlangen nicht, Shakespeare zu schreiben oder Quantenmechanik zu erklären, sondern Zusammenfassen, Klassifizieren, Extrahieren, Umschreiben oder Normalisieren zuverlässig auszuführen
- Für solche Aufgaben sind lokale Modelle mehr als gut genug
- Wer lokale Modelle als Ersatz für das gesamte Internet einsetzt, wird enttäuscht; nutzt man sie jedoch als „Datentransformator“ innerhalb einer App, fragt man sich schnell, warum man die Daten je an einen Server geschickt hat
- Cloud-Modelle sollten nur dann eingesetzt werden, wenn sie wirklich gebraucht werden, und Nutzerdaten sollten an Ort und Stelle bleiben
- KI sollte nicht durch das Ankleben einer Chatbox genutzt werden, sondern als echtes Subsystem mit typisierter Ausgabe und vorhersagbarem Verhalten
Datenschutz und Vertrauensaufbau
- Es gibt zahlreiche KI-Funktionen wie E-Mail-Zusammenfassungen, das Extrahieren von Action Items aus Notizen und die Klassifizierung von Dokumenten, die Menschen wollen, denen sie aber nicht vertrauen
- Der Cloud-Ansatz verwandelt all dies in ein Vertrauensexperiment: „Bitte senden Sie Ihre Daten an unseren Server, wir behandeln sie schon ordentlich“
- Lokale KI verändert das grundlegend — die Daten sind bereits auf dem Gerät und werden direkt dort verarbeitet
- Vertrauen wird nicht dadurch aufgebaut, dass man eine 2.000 Wörter lange Datenschutzerklärung schreibt, sondern durch eine Struktur, die eine solche Richtlinie gar nicht erst nötig macht
1 Kommentare
Hacker-News-Meinungen
Das Gefühl, das Mainstream-Nutzer derzeit gegenüber lokaler AI haben, ähnelt dem, das sie vor einigen Jahrzehnten gegenüber Open Source hatten
Bei manchen Produkten lagen kostenpflichtige Lösungen deutlich vorn, sodass Open Source oft komplett ignoriert wurde, nach dem Motto: „Warum überhaupt?“
Dann kamen abhängigmachende SaaS- und Plattformmodelle auf, und heute ist ziemlich klar, dass diese Einschätzung größtenteils falsch war
Die Abhängigkeit von Anthropic und OpenAI beim Coden ist absurd hoch, aber viele stört das nicht oder sie hoffen nur, dass China nicht aufhört, offene Gewichte zu veröffentlichen
Das Geschäftsmodell offener Gewichte ist noch sehr neu, durchmischt mit Machtkämpfen zwischen Staaten und Forschungseinrichtungen, und es bewegen sich absurde Summen ohne nennenswerte reale Kontrolle
Im Moment steht enorm viel Wert fast allen offen, aber es ist eine riskante Wette, die aus Gründen, die wir nicht kontrollieren können, jederzeit ohne Vorwarnung enden könnte
Für 95 % der Anwendungsfälle reicht das aus, und ein Verfallsdatum gibt es nicht
Das „Risiko“ besteht nur darin, dass man das Modell der nächsten Generation nicht nutzen kann, und die Auswirkungen davon scheinen sehr gering
Im besten Fall dient es als Werbung, um fortgeschrittenere Modelle zu verkaufen
Der große Unterschied zu Open Source ist, dass man ein LLM nicht nur mit Freizeit und gutem Willen trainieren kann
Man braucht viele Daten und enorme Rechenressourcen
Ich hoffe, dass ich damit falsch liege, denn eine Zukunft in Richtung Open Weights wäre mir deutlich lieber
Lokale AI sollte als eigenes Produkt behandelt werden, und wenn man lokal alles erledigt, wofür man wirklich keine Cloud-AI braucht, und Cloud-AI nur als Ausweichoption nutzt, würden die Kosten stark sinken
Da sie mit Steuergeldern finanziert wäre, könnte sie am Ende als Open Source veröffentlicht werden, und die NSA hat Jahrzehnte an Internetdaten, sodass ein darauf trainiertes Open-Weight-Modell so gut werden könnte wie die Modelle mancher Unternehmen
Wenn man an Dinge wie Hintergrundentfernung bei Fotos oder PDF-OCR denkt, nutzt im Alltag praktisch niemand dafür einen kostenpflichtigen Dienst
Dieser Moment wird kommen, und er ist gar nicht mehr weit weg
Der Trend ist bereits gesetzt. Anfangs konnten leistungsfähige LLMs nur in großen Rechenzentren laufen, inzwischen sind wir klar bei mehreren Servern mit ein paar H100-Karten angekommen, und es geht immer stärker in Richtung „MacBook Pro oder Strix Halo mit 128 GB VRAM“
Innerhalb des nächsten Jahres wird in Unternehmen das Muster zum Standard werden, mit „teurem Remote-LLM planen, mit lokalem, langsamerem, aber schneller als Menschen arbeitendem LLM ausführen“, und danach wird es sich schrittweise zu „alles lokal mit LLMs reicht aus“ verschieben
Am Ende entsteht dieselbe Balance wie bei klassischer Cloud: selbst hosten oder für Flexibilität und Geschwindigkeit bezahlen
Die Frage ist, wie stark lokales Hosting den aktuellen Rechenressourcen-Hype abwürgen wird und was das für den Markt bedeutet
Ich lasse quantisierte Qwen- und Gemma-Modelle auf einem drei Jahre alten, ordentlichen Gaming-PC laufen, ungefähr mit RTX 3080 12GB und 32 GB RAM
Es ist langsam und das Kontextfenster ist klein, aber mit einer passenden Laufzeitumgebung kann es Reisefotos durchsuchen und klassifizieren
Es kann OCR für Belege machen, Ausgaben zusammenfassen, einfache Fragen beantworten, Code analysieren und bei geringem Kontextbedarf auch Code schreiben
Wenn man sich um die VS-Code-Integration kümmert, könnte man wahrscheinlich auch eine brauchbare Autovervollständigung hinbekommen
„MacBook Pro oder Strix Halo mit 128 GB VRAM“ sehe ich als minimale brauchbare Konfiguration für agentisches Coding
Momentan läuft es allerdings umgekehrt. Die Cloud-Variante ist um Größenordnungen günstiger als Self-Hosting, weil durch Teilen eine viel höhere Serverauslastung möglich ist
Wenn ein Unternehmen 500.000 Dollar für Hardware ausgibt, um GLM 5.1 zu betreiben, bekommt es Datensicherheit, Flexibilität und keine Zensur, aber im Vergleich zu einem Anthropic-Sitzplatzmodell ist das viel zu teuer
Direkt ein paar Zeilen weiter unten wurde bereits ein Aufstand daraus gemacht, dass Chrome ein lokales LLM-Modell für lokale Inferenz eingebaut hat, das einige GB Speicherplatz braucht
Man wird also kritisiert, wenn man es tut, und genauso, wenn man es nicht tut
Genau das habe ich neulich gemacht, um mit Bildgenerierung herumzuspielen
Die Leute ärgern sich nicht über die Installation lokaler Modelle an sich, sondern über den Mangel an Nutzerautonomie
Man darf es eben nicht heimlich installieren, sondern sollte die Wahl lassen, ob das Modell heruntergeladen werden soll
Das ist nicht schwer, und alle anderen lokalen Optionen funktionieren genauso
Wenn es kein Opt-in ist oder dem Browser aufgezwungen wird, ist es schlecht
Niemand regt sich darüber auf, dass eine App, die ein lokales LLM ausführt, die dafür nötigen Daten herunterlädt
Dieser Kommentar behandelt den Charakter der Diskussion ziemlich unredlich
Ich finde, die Diskussion über Private AI und die über lokale AI sollte man trennen
Die realistische Option für große LLMs sind online betriebene große Server oder Serververbünde, aber das heißt nicht, dass nur private Unternehmen sie betreiben dürfen
Eine selbst gehostete Inferenzlösung mit guten Garantien für Tenant-Isolation, idealerweise Zero Trust, und ausreichend einfacher Bereitstellung und Wartung, gewissermaßen ein Plex für AI, wäre eine Option für Privatsphäre
Ehrlich gesagt habe ich das überhaupt nicht untersucht und weiß nicht, wie realistisch das ist. Vielleicht existiert es schon und ich muss nur dem richtigen Discord-Server beitreten
Nebenbei, auch wenn man das hier kaum noch extra sagen muss: Erstaunlich ist, dass offene Modelle so nah an die besten kommerziellen Modelle herankommen, dass man sagen kann, der schwierigste Teil sei im Wesentlichen schon gelöst
Dabei kommt vertrauliches Rechnen von NVIDIA zum Einsatz, der Enklaven-Code ist Open Source, und per Remote Attestation beim Verbindungsaufbau wird verifiziert, dass der Inferenzanbieter keine Daten einsehen kann – kryptografisch beweisbar
Tinfoil: https://tinfoil.sh/ ist ein gutes Beispiel. Offenlegung der Interessenlage: Ich bin Mitgründer
Mehr zur Funktionsweise gibt es hier: https://docs.tinfoil.sh/verification/verification-in-tinfoil
Dass offene Modelle an die besten kommerziellen Modelle herankommen, stimmt für bestimmte Aufgaben weitgehend
Zum Beispiel kann ein Chat-Interface die höhere Modellintelligenz oberhalb des Niveaus der besten Open-Source-Modelle schon heute oft kaum noch sinnvoll ausnutzen
Coding-Laufzeitumgebungen profitieren aber weiterhin von höherer Modellintelligenz, insbesondere weil bei Anbietern wie claude-code oder codex die Coding-Umgebung des Anbieters und die Tool-Calling-Schnittstelle des Modells per Reinforcement Learning eng aufeinander abgestimmt sind – das ist ein weiterer Grund, warum es Unterschiede gibt, selbst wenn man die Modellintelligenz kontrolliert
Auch der Gründer von opencode, einer Open-Source-Coding-Laufzeitumgebung mit Unterstützung für mehrere Modellanbieter, hat sich kürzlich darüber beklagt, wie schwierig es ist, die Laufzeitumgebung jeweils gut auf einzelne Anbieter abzustimmen: https://x.com/thdxr/status/2053290393727324313
Die Beispiele im Beitrag bestätigen für mich, dass lokale Modelle nicht mit Frontier-Modellen konkurrieren müssen, um erfolgreich zu sein – sie müssen nur gut genug sein
Sie müssen kleine Aufgaben gut erledigen und auf Consumer-Geräten vernünftig laufen
Wenn sie auch auf Smartphones laufen, umso besser
Nach meinen Experimenten mit lokalen LLMs hilft ein größeres Modell zwar, aber der eigentliche Faktor, der ein fast nutzloses Modell in ein nützliches verwandelt, war die Fähigkeit zum Tool-Einsatz
Websuche und das Abrufen von Webseiten zu erlauben, hat Halluzinationen viel stärker reduziert als ein größeres Modell, und das Problem des abgeschnittenen Trainingszeitpunkts entfällt ebenfalls
Natürlich können größere Modelle Tools womöglich besser nutzen, aber oft reichen auch kleinere Modelle aus
Ich habe eine Demo gebaut, was man mit der neuen Prompt API von Chrome machen kann, die lokale Modelle nutzt: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
Wie im Originalbeitrag entfaltet sie ihre Stärke in einer begrenzten Umgebung, in der Daten transformiert werden, die dem Nutzer gehören
Für offenere Aufgaben ist sie eindeutig weniger nützlich
Es ist okay, aber wirklich schwach
8B-Modelle von vor einem Jahr waren in mancher Hinsicht besser, und neuere Modelle sind spürbar stärker geworden
Ohne lokales Modell und ohne Webseite geht es nicht
Während alle anderen für Stromverbrauch und Hardwareverschleiß zahlen, bekommen die Anbieter mehr, bessere und billigere Adtech-Ausbeutung und Überwachung
Ganz großartig
Bestehende Akteure werden alles daransetzen, lokal zu verhindern, aber es gibt einige technische Gründe dafür, dass kleine, spezialisierte Modelle am Ende zum Standard werden könnten
Dann würde lokal automatisch nachziehen
Der Originalbeitrag fokussiert darauf, ob Nutzer für das, was sie wollen, überhaupt große Modelle brauchen
Es gibt aber auch Gründe dafür, dass große Modelle möglicherweise nie wirklich zuverlässig genug werden, außer wenn a) die mechanistische Interpretierbarkeit weit genug reift oder b) Multi-Agenten-Systeme ohnehin komplett multi-modellig werden
Im Fall von a könnte Fortschritt in der mechanistischen Interpretierbarkeit zwar Probleme großer Modelle beheben, zugleich aber auch ermöglichen, integrierte Repräsentationen zu gewinnen und aus riesigen Modellen nur die nützlichen Teile herauszuschneiden
Man würde nur das Nötige übernehmen und den Rest verwerfen, um Kosten und Angriffsfläche zu reduzieren
Braucht man nur Logik? Nur Vision? Dann nimmt man eben genau diesen Teil aus dem riesigen Monster
Die Fähigkeit, Probleme zu isolieren, wird schwerlich kommen, ohne auch funktionale Subsysteme isolieren zu können
Im Fall von b muss man sich nur Kategorien wie Evil Vectors oder auf Tool-Nutzung spezialisierte Halluzinationen ansehen
Ohne eine vollständige Lösung für Helpful/Honest/Harmless-Alignment ist es gut möglich, dass Kreativität und Strenge sowie viele andere Faktoren grundsätzlich in Spannung zueinander stehen
Wenn man für alles ohnehin mehrere Modelle braucht, warum dann noch ein teures, riesiges Universalmodell
Spezialisierung erzeugt damit ebenfalls Druck, alles auf das Minimum an vertrauenswürdigen Expertenmodellen zu reduzieren
Mein Problem mit LLMs ist – unabhängig von der philosophischen Seite und den wirtschaftlichen Folgen –, dass es schwierig scheint, funktionsfähige Modelle lokal zu trainieren
Spielzeug-LLMs sind machbar, aber wirklich nützliche eher nicht
Man braucht nicht nur enorme Rechenleistung, sondern meist auch Datensätze, die größtenteils illegal beschafft wurden
Ich bin persönlich vielleicht nicht besonders intelligent, aber um die Intelligenz zu bekommen, die ich heute habe, musste ich nicht alle jemals geschriebenen Bücher, alle Wikipedia-Artikel, alle Blogbeiträge, alle Referenzhandbücher und jede einzelne Codezeile trainieren
Nicht einmal 1 % davon, ja nicht einmal 0,00000000001 %
Es ist offensichtlich, dass Text selbst keine Voraussetzung für Intelligenz ist
Wenn schon meine lose Beobachtung der Umgebung über etwa 20 Jahre an Intelligenz heranreicht, dann ist das ein starkes Indiz dafür, dass der nötige Datensatz einfach aus Sensoren und der umgebenden Welt besteht
Natürlich startet das menschliche Gehirn nicht bei null; es gab Millionen Jahre Evolution, um den Boden zu bereiten, in dem Intelligenz Wurzeln schlagen kann
Aber diese Grundstruktur ist ziemlich allgemein und scheint nicht von einem bestimmten Trainingssatz abzuhängen
Vielleicht kann man sie auch künstlich evolvieren lassen
Solange das Basismodell meine Sprache unterstützt, könnte ich wahrscheinlich mit der freien Rechenleistung meiner vorhandenen Geräte pro Monat einige LoRAs trainieren
Wenn normale Heimcomputer in Zukunft Fähigkeiten auf heutigem Serverniveau haben, wird man zu Hause auch vollständige LLMs trainieren können
Ich habe keinerlei Einfluss darauf, womit es trainiert wurde, wie die Trainingsdaten gelabelt wurden, welche Guardrails es gibt oder welche Biases enthalten sind
Wie bei allem anderen wird es große LLM-Hersteller, kleine LLM-Hersteller, handwerkliche LLM-Bauer, LLM-Enthusiasten und LLM-Konsumenten geben
Es gibt ziemlich viele Anwendungsfälle, in denen man die nötigen Trainingsdaten für private oder nichtkommerzielle Nutzung beschaffen kann
Ab dann ist es nur noch eine Frage von Rechenaufwand und Zeit, und wenn man bereit ist zu warten, kann man auch mit Consumer-Hardware nützliche Modelle bauen
Es stimmt schon, dass man „Cloud-Modelle nur nutzen sollte, wenn sie wirklich nötig sind“, aber das Problem ist, dass es viel einfacher ist, subventionierte State-of-the-Art-Modelle zu verwenden, als Zeit damit zu verbringen, lokale Modelle richtig einzurichten
Das ist mir bei Coding-Agenten gerade erst klar geworden
Man muss nicht immer die neueste Version auf xhigh nutzen, aber am Ende tut man es doch
Weil man die Arbeit in kürzerer Zeit, mit weniger Aufwand und faktisch zum gleichen Preis erledigt bekommt
Erst wenn große Anbieter anfangen, wirklich nach Tokenverbrauch abzurechnen, wird es vermutlich ernsthafte Bemühungen um lokale AI geben
Ich habe ungefähr acht Tabs mit Anbietern auf kostenloser Stufe offen, und ChatGPT, Claude und Gemini bilden dabei die Spitze
Ich kann eines bis zum Limit nutzen und dann problemlos zum nächsten wechseln
So kann ich den ganzen Tag lang bestimmte Funktionen oder Klassen in meinem Code implementieren lassen
Weil ich tatsächlich weiß, wie man Software schreibt und entwirft, muss ich nicht ständig denselben Agenten erneut laufen lassen, um an einem Tag alles zu erzeugen
Schon mit Web-Chatbots und Copy-and-Paste kann ich tausende Zeilen Code pro Stunde erzeugen, dabei ein starkes mentales Modell meines Codes behalten und die nötigen Teile selbst anpassen
Genau das habe ich heute Morgen in einem Python-Projekt gemacht
Weil ich entworfen habe, was ich brauche, bestand jede Generierung darin, nach genau einer Funktion zu fragen, und als ich am Morgen noch etwas ergänzen musste, habe ich den Chatbot gar nicht gefragt, sondern bin direkt an die richtige Stelle gegangen und habe es selbst korrigiert
Wenn man alles aus einer Spezifikation komplett generieren lässt, geht das nicht
Besonders dann, wenn der Preis die tatsächlichen Kosten verschleiert
Jedes Mal, wenn ein Beitrag über LLMs erscheint, behaupten in den Kommentaren viele sehr überzeugt, dass sie mit aktuellen DeepSeek/Qwen usw. Ergebnisse auf Opus-Niveau erzielen, aber meine Erfahrung ist völlig anders
Open-Source-Modelle brechen im Vergleich zu Claude völlig ein, sobald man ihnen auch nur etwas komplexere Aufgaben gibt
Ich frage mich, ob wir nicht eine ähnliche Situation wie bei Linux in den 90ern erleben
Es funktionierte irgendwie, war aber für Heimanwender überhaupt nicht bereit, und trotzdem haben viele einem aus ideologischen Gründen ins Gesicht gesagt, alles sei in Ordnung
Die Leute versuchen tatsächlich, „die beste Software“ zu bauen
Die KI-donquichottischen Akzelerationisten sind unter den Menschen, die Software bauen, eher eine laute Minderheit, und wenn man Online-APIs lokalen Systemen vorzieht, ist das meistens keine Faulheit von Entwicklern, sondern eine Entscheidung für die Nutzer
Im Moment kann man mit proprietärer AI mehr Dinge besser erledigen als mit lokalen Modellen
Daran führt kein Weg vorbei
Selbst wenn lokale AI besser wird, bleibt es oft eine lohnende Investition, an der Front der LLM-Leistung zu sein
Die meisten Menschen akzeptieren ein Produkt nur, wenn es erstklassig und extrem bequem ist
Diese Hürde ist hoch, und lokale AI nimmt sie oft nicht
Diese HN-Fixierung darauf, alle Nutzer als Open-Source-, Privacy-First-, Self-Hosting-Linux-Fanatiker zu behandeln, ist peinlich altbacken