13 Punkte von GN⁺ 8 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Es ist inzwischen üblich geworden, App-Funktionen mit den APIs von OpenAI oder Anthropic zu verbinden, doch die Abhängigkeit von Cloud-gehosteten KI-Modellen führt dazu, dass Funktionen schon durch Serverausfälle oder Abrechnungsprobleme stillstehen und zugleich die Datenschutzlast steigt
  • Moderne Geräte verfügen mit Komponenten wie der Neural Engine über starke On-Device-Rechenleistung, die jedoch meist ungenutzt bleibt, während nur auf Serverantworten gewartet wird
  • So lassen sich etwa mit Apples FoundationModels-Framework KI-Funktionen wie Zusammenfassung, Klassifizierung und Extraktion direkt auf dem Gerät ohne Server umsetzen
  • Der native iOS client von The Brutalist Report erzeugt Artikelzusammenfassungen on-device über Apples lokale Modell-API, umgeht damit Server und macht Prompt- und Nutzerlogs, Vendor-Konten sowie Fußnoten zur Inhaltsaufbewahrung überflüssig
  • Lokale Modelle sind womöglich nicht so intelligent wie Cloud-Modelle, können aber für Datentransformations-Aufgaben wie Zusammenfassen, Klassifizieren, Extrahieren, Umschreiben und Normalisieren völlig ausreichen; Cloud-Modelle sollten nur dann genutzt werden, wenn sie wirklich nötig sind

Probleme der Abhängigkeit von Cloud-KI

  • Es verbreitet sich ein Trend, bei dem Entwickler App-Funktionen wahllos um API-Aufrufe an OpenAI oder Anthropic ergänzen
  • Dieser Ansatz macht Software anfällig, datenschutzfeindlich und grundsätzlich instabil
    • Fällt der Server aus oder läuft die Kreditkarte ab, funktioniert die App nicht mehr
  • In dem Moment, in dem Nutzerinhalte an einen KI-Drittanbieter gestreamt werden, verändert sich der Charakter des Produkts selbst
    • Damit gehen Fragen zu Datenspeicherung, Einwilligung, Auditierung, Lecks, behördlichen Anfragen und der Nutzung als Trainingsdaten einher
  • Man wird abhängig von Netzwerkzustand, Verfügbarkeit externer Vendoren, rate limit, Kontenabrechnung und dem Zustand des eigenen Backends, wodurch der Stack komplexer wird
  • Letztlich wird schon eine einzelne UX-Funktion zu einem kostenpflichtigen verteilten System
  • Funktionen, die lokal verarbeitet werden können, unnötig in die Cloud zu schicken, ist ein Eigentor

Warum lokale Geräte genutzt werden sollten

  • Die Chips in unseren Geräten sind heute unvergleichlich schneller als noch vor zehn Jahren, und die dedizierte Neural Engine liegt meist brach
    • Im Vergleich dazu ist es unvernünftig, auf JSON-Antworten aus einer Serverfarm in Virginia zu warten
  • Das Ziel sollte nicht "AI everywhere" sein, sondern nützliche Software
  • Wenn sich eine Funktion lokal verarbeiten lässt, ist die Entscheidung für externe Abhängigkeiten selbst schon unnötiger Schaden

On-Device-Zusammenfassungen bei The Brutalist Report

  • The Brutalist Report ist ein News-Aggregator, der von Webdesign im Stil der 1990er inspiriert ist
  • Beim Bau des native iOS client war das Ziel, ein dichtes News-Leseerlebnis beizubehalten
  • Der iOS-Client bietet eine Headline-Liste mit starkem Kontrast, einen Reader Mode, der störende Webelemente entfernt, sowie eine optionale "intelligence"-Ansicht zum Zusammenfassen von Artikeln
  • Entscheidend ist, dass die Zusammenfassungen on-device über Apples lokale Modell-API erzeugt werden
  • Server werden umgangen; es braucht weder Prompt- oder Nutzerlogs noch Vendor-Konten oder Fußnoten wie „Inhalte werden 30 Tage gespeichert“
  • Es ist zu selbstverständlich geworden, davon auszugehen, dass jede KI-Nutzung serverseitig stattfindet; um das zurückzudrehen, braucht es branchenweite Anstrengungen
  • Einige Einsatzfälle verlangen die Intelligenz, die nur Cloud-gehostete Modelle liefern, aber das gilt nicht für alle Anwendungsfälle, daher ist sorgfältiges Abwägen nötig

Lokale KI-Werkzeuge im Apple-Ökosystem

  • Im Apple-Ökosystem wurde im vergangenen Jahr investiert, damit Entwickler integrierte lokale KI-Modelle leicht nutzen können
  • Der grundlegende Ablauf besteht darin, FoundationModels zu importieren, die Verfügbarkeit von SystemLanguageModel.default zu prüfen und dann mit LanguageModelSession einen Prompt zu formulieren und eine Antwort zu erhalten
    import FoundationModels  
    
    let model = SystemLanguageModel.default  
    guard model.availability == .available else { return }  
    
    let session = LanguageModelSession {  
      """  
      Provide a brutalist, information-dense summary in Markdown format.  
      - Use **bold** for key concepts.  
      - Use bullet points for facts.  
      - No fluff. Just facts.  
      """  
    }  
    
    let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
      articleText  
    }  
    
    let markdown = response.content  
    
  • Lange Inhalte lassen sich in Klartext in Abschnitte von etwa 10.000 Zeichen aufteilen; aus jedem Chunk können knappe "facts only"-Notizen erstellt und in einem zweiten Durchgang zu einer finalen Zusammenfassung kombiniert werden
  • Solche Aufgaben passen gut zu lokalen Modellen
    • Die Eingabedaten sind Inhalte, die der Nutzer ohnehin gerade liest, also bereits auf dem Gerät vorhanden
    • Die Ausgabe ist leichtgewichtig
    • Die Verarbeitung ist schnell und privat
    • Es geht darum, eine gerade geladene Seite zusammenzufassen, nicht darum, neues Weltwissen zu erzeugen; dafür ist keine übermenschliche Intelligenz nötig
  • Lokale KI glänzt dann, wenn das Modell nicht das gesamte Universum durchsuchen soll, sondern Daten transformiert, die dem Nutzer bereits gehören

Wie Vertrauen entsteht

  • KI-Funktionen wie E-Mail-Zusammenfassungen, das Extrahieren von To-dos aus Notizen oder die Klassifizierung von Dokumenten gehören zu den Dingen, die Menschen wollen, denen sie aber nicht vertrauen
  • Der übliche Cloud-Ansatz macht aus all dem eine Vertrauensfrage: ob man Daten wirklich an einen Server schicken möchte
  • Lokale KI verändert diese Struktur, indem sie Daten, die bereits auf dem Gerät liegen, genau dort verarbeitet
  • Nutzervertrauen entsteht nicht durch eine 2.000 Wörter lange Datenschutzerklärung
  • Vertrauen entsteht durch eine Architektur, die eine solche Datenschutzerklärung gar nicht erst nötig macht

Strukturierte Ausgabe und typbasierte KI

  • Eine der guten jüngsten Entscheidungen von Apple war es, „AI output“ von unstrukturierten Textblöcken zu typisierten Daten weiterzuentwickeln
  • Statt „das Modell um JSON bitten und hoffen, dass es gut herauskommt“ ist es das neuere und bessere Muster, ein Swift-struct zu definieren, das das gewünschte Ergebnis repräsentiert
  • Jedem Feld wird eine Anleitung in natürlicher Sprache mitgegeben, und das Modell erzeugt dann eine Instanz dieses Typs
    import FoundationModels  
    
    @Generable  
    struct ArticleIntel {  
      @Guide(description: "One sentence. No hype.") var tldr: String  
      @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
      @Guide(description: "Comma-separated keywords.") var keywords: [String]  
    }  
    
    let session = LanguageModelSession()  
    let response = try await session.respond(  
      to: "Extract structured notes from the article.",  
      generating: ArticleIntel.self  
    ) {  
      articleText  
    }  
    
    let intel = response.content  
    
  • So muss die UI keine Bullet-Points aus Markdown herauskratzen oder darauf hoffen, dass sich das Modell an ein JSON-Schema erinnert
  • Die App kann echte Typen mit echten Feldern empfangen und konsistent rendern
  • Dadurch entstehen strukturierte Ausgaben, die eine App tatsächlich verwenden kann, und der gesamte Prozess läuft lokal
  • Das ist nicht nur eine bequeme Schnittstelle, sondern eine Verbesserung der Engineering-Qualität
  • In einer Local-First-App wird KI dadurch nicht zu einem netten Gimmick, sondern zu einem „vertrauenswürdigen Subsystem“

Entgegnung auf „Lokale Modelle sind weniger intelligent“

  • Es stimmt, dass lokale Modelle nicht so intelligent sind wie Cloud-Modelle, doch für die meisten App-Funktionen ist das nicht entscheidend
  • Die meisten Funktionen verlangen nicht, Shakespeare zu schreiben oder Quantenmechanik zu erklären, sondern Zusammenfassen, Klassifizieren, Extrahieren, Umschreiben oder Normalisieren zuverlässig auszuführen
  • Für solche Aufgaben sind lokale Modelle mehr als gut genug
  • Wer lokale Modelle als Ersatz für das gesamte Internet einsetzt, wird enttäuscht; nutzt man sie jedoch als „Datentransformator“ innerhalb einer App, fragt man sich schnell, warum man die Daten je an einen Server geschickt hat
  • Cloud-Modelle sollten nur dann eingesetzt werden, wenn sie wirklich gebraucht werden, und Nutzerdaten sollten an Ort und Stelle bleiben
  • KI sollte nicht durch das Ankleben einer Chatbox genutzt werden, sondern als echtes Subsystem mit typisierter Ausgabe und vorhersagbarem Verhalten

Datenschutz und Vertrauensaufbau

  • Es gibt zahlreiche KI-Funktionen wie E-Mail-Zusammenfassungen, das Extrahieren von Action Items aus Notizen und die Klassifizierung von Dokumenten, die Menschen wollen, denen sie aber nicht vertrauen
  • Der Cloud-Ansatz verwandelt all dies in ein Vertrauensexperiment: „Bitte senden Sie Ihre Daten an unseren Server, wir behandeln sie schon ordentlich“
  • Lokale KI verändert das grundlegend — die Daten sind bereits auf dem Gerät und werden direkt dort verarbeitet
  • Vertrauen wird nicht dadurch aufgebaut, dass man eine 2.000 Wörter lange Datenschutzerklärung schreibt, sondern durch eine Struktur, die eine solche Richtlinie gar nicht erst nötig macht

1 Kommentare

 
GN⁺ 8 시간 전
Hacker-News-Meinungen
  • Das Gefühl, das Mainstream-Nutzer derzeit gegenüber lokaler AI haben, ähnelt dem, das sie vor einigen Jahrzehnten gegenüber Open Source hatten
    Bei manchen Produkten lagen kostenpflichtige Lösungen deutlich vorn, sodass Open Source oft komplett ignoriert wurde, nach dem Motto: „Warum überhaupt?“
    Dann kamen abhängigmachende SaaS- und Plattformmodelle auf, und heute ist ziemlich klar, dass diese Einschätzung größtenteils falsch war
    Die Abhängigkeit von Anthropic und OpenAI beim Coden ist absurd hoch, aber viele stört das nicht oder sie hoffen nur, dass China nicht aufhört, offene Gewichte zu veröffentlichen
    Das Geschäftsmodell offener Gewichte ist noch sehr neu, durchmischt mit Machtkämpfen zwischen Staaten und Forschungseinrichtungen, und es bewegen sich absurde Summen ohne nennenswerte reale Kontrolle
    Im Moment steht enorm viel Wert fast allen offen, aber es ist eine riskante Wette, die aus Gründen, die wir nicht kontrollieren können, jederzeit ohne Vorwarnung enden könnte

    • Ich sehe nicht, was uns daran hindern sollte, die derzeit besten Open-Weight-LLMs dauerhaft auf Consumer-Hardware laufen zu lassen
      Für 95 % der Anwendungsfälle reicht das aus, und ein Verfallsdatum gibt es nicht
      Das „Risiko“ besteht nur darin, dass man das Modell der nächsten Generation nicht nutzen kann, und die Auswirkungen davon scheinen sehr gering
    • Ich weiß nicht, was das Geschäftsmodell von Open-Weight-AI sein soll, eigentlich sehe ich keines
      Im besten Fall dient es als Werbung, um fortgeschrittenere Modelle zu verkaufen
      Der große Unterschied zu Open Source ist, dass man ein LLM nicht nur mit Freizeit und gutem Willen trainieren kann
      Man braucht viele Daten und enorme Rechenressourcen
      Ich hoffe, dass ich damit falsch liege, denn eine Zukunft in Richtung Open Weights wäre mir deutlich lieber
    • Es sollte kein Gegensatz lokal gegen Cloud-AI sein
      Lokale AI sollte als eigenes Produkt behandelt werden, und wenn man lokal alles erledigt, wofür man wirklich keine Cloud-AI braucht, und Cloud-AI nur als Ausweichoption nutzt, würden die Kosten stark sinken
    • Ich warte darauf, dass die US-Regierung ihre eigene lokale AI entwickelt
      Da sie mit Steuergeldern finanziert wäre, könnte sie am Ende als Open Source veröffentlicht werden, und die NSA hat Jahrzehnte an Internetdaten, sodass ein darauf trainiertes Open-Weight-Modell so gut werden könnte wie die Modelle mancher Unternehmen
    • Wenn Kosten wichtig werden oder eine kostenlose, aber schwächere Option attraktiv und zugänglich wird, etwa in Form eines On-Device-Agenten mit Apple-artiger User Experience, dann würden Nutzer ziemlich deutlich in Richtung lokal wechseln
      Wenn man an Dinge wie Hintergrundentfernung bei Fotos oder PDF-OCR denkt, nutzt im Alltag praktisch niemand dafür einen kostenpflichtigen Dienst
  • Dieser Moment wird kommen, und er ist gar nicht mehr weit weg
    Der Trend ist bereits gesetzt. Anfangs konnten leistungsfähige LLMs nur in großen Rechenzentren laufen, inzwischen sind wir klar bei mehreren Servern mit ein paar H100-Karten angekommen, und es geht immer stärker in Richtung „MacBook Pro oder Strix Halo mit 128 GB VRAM“
    Innerhalb des nächsten Jahres wird in Unternehmen das Muster zum Standard werden, mit „teurem Remote-LLM planen, mit lokalem, langsamerem, aber schneller als Menschen arbeitendem LLM ausführen“, und danach wird es sich schrittweise zu „alles lokal mit LLMs reicht aus“ verschieben
    Am Ende entsteht dieselbe Balance wie bei klassischer Cloud: selbst hosten oder für Flexibilität und Geschwindigkeit bezahlen
    Die Frage ist, wie stark lokales Hosting den aktuellen Rechenressourcen-Hype abwürgen wird und was das für den Markt bedeutet

    • Dieser Zeitpunkt ist schon jetzt da
      Ich lasse quantisierte Qwen- und Gemma-Modelle auf einem drei Jahre alten, ordentlichen Gaming-PC laufen, ungefähr mit RTX 3080 12GB und 32 GB RAM
      Es ist langsam und das Kontextfenster ist klein, aber mit einer passenden Laufzeitumgebung kann es Reisefotos durchsuchen und klassifizieren
      Es kann OCR für Belege machen, Ausgaben zusammenfassen, einfache Fragen beantworten, Code analysieren und bei geringem Kontextbedarf auch Code schreiben
      Wenn man sich um die VS-Code-Integration kümmert, könnte man wahrscheinlich auch eine brauchbare Autovervollständigung hinbekommen
      „MacBook Pro oder Strix Halo mit 128 GB VRAM“ sehe ich als minimale brauchbare Konfiguration für agentisches Coding
      Momentan läuft es allerdings umgekehrt. Die Cloud-Variante ist um Größenordnungen günstiger als Self-Hosting, weil durch Teilen eine viel höhere Serverauslastung möglich ist
      Wenn ein Unternehmen 500.000 Dollar für Hardware ausgibt, um GLM 5.1 zu betreiben, bekommt es Datensicherheit, Flexibilität und keine Zensur, aber im Vergleich zu einem Anthropic-Sitzplatzmodell ist das viel zu teuer
    • Die größte Wirkung lokaler Modelle könnte schlicht darin liegen, zu verhindern, dass Remote-Inferenz zur einzigen Option wird
  • Direkt ein paar Zeilen weiter unten wurde bereits ein Aufstand daraus gemacht, dass Chrome ein lokales LLM-Modell für lokale Inferenz eingebaut hat, das einige GB Speicherplatz braucht
    Man wird also kritisiert, wenn man es tut, und genauso, wenn man es nicht tut

    • Man sollte nur nicht ungefragt Bandbreite und Speicherplatz im Gigabyte-Bereich verbrauchen
    • Wenn ich ein Modell brauche, lade ich es selbst herunter
      Genau das habe ich neulich gemacht, um mit Bildgenerierung herumzuspielen
    • Das ist eine etwas unredliche Auslegung
      Die Leute ärgern sich nicht über die Installation lokaler Modelle an sich, sondern über den Mangel an Nutzerautonomie
      Man darf es eben nicht heimlich installieren, sondern sollte die Wahl lassen, ob das Modell heruntergeladen werden soll
      Das ist nicht schwer, und alle anderen lokalen Optionen funktionieren genauso
    • Seltsame Auslegung
      Wenn es kein Opt-in ist oder dem Browser aufgezwungen wird, ist es schlecht
      Niemand regt sich darüber auf, dass eine App, die ein lokales LLM ausführt, die dafür nötigen Daten herunterlädt
    • Man sollte die Kommentare lesen, um zu sehen, worüber die Leute sich tatsächlich beschweren
      Dieser Kommentar behandelt den Charakter der Diskussion ziemlich unredlich
  • Ich finde, die Diskussion über Private AI und die über lokale AI sollte man trennen
    Die realistische Option für große LLMs sind online betriebene große Server oder Serververbünde, aber das heißt nicht, dass nur private Unternehmen sie betreiben dürfen
    Eine selbst gehostete Inferenzlösung mit guten Garantien für Tenant-Isolation, idealerweise Zero Trust, und ausreichend einfacher Bereitstellung und Wartung, gewissermaßen ein Plex für AI, wäre eine Option für Privatsphäre
    Ehrlich gesagt habe ich das überhaupt nicht untersucht und weiß nicht, wie realistisch das ist. Vielleicht existiert es schon und ich muss nur dem richtigen Discord-Server beitreten
    Nebenbei, auch wenn man das hier kaum noch extra sagen muss: Erstaunlich ist, dass offene Modelle so nah an die besten kommerziellen Modelle herankommen, dass man sagen kann, der schwierigste Teil sei im Wesentlichen schon gelöst

    • Eine weitere Option ist verifizierbare private Inferenz, bei der Open-Source-Modelle in einer sicheren Cloud-Enklave laufen
      Dabei kommt vertrauliches Rechnen von NVIDIA zum Einsatz, der Enklaven-Code ist Open Source, und per Remote Attestation beim Verbindungsaufbau wird verifiziert, dass der Inferenzanbieter keine Daten einsehen kann – kryptografisch beweisbar
      Tinfoil: https://tinfoil.sh/ ist ein gutes Beispiel. Offenlegung der Interessenlage: Ich bin Mitgründer
      Mehr zur Funktionsweise gibt es hier: https://docs.tinfoil.sh/verification/verification-in-tinfoil
      Dass offene Modelle an die besten kommerziellen Modelle herankommen, stimmt für bestimmte Aufgaben weitgehend
      Zum Beispiel kann ein Chat-Interface die höhere Modellintelligenz oberhalb des Niveaus der besten Open-Source-Modelle schon heute oft kaum noch sinnvoll ausnutzen
      Coding-Laufzeitumgebungen profitieren aber weiterhin von höherer Modellintelligenz, insbesondere weil bei Anbietern wie claude-code oder codex die Coding-Umgebung des Anbieters und die Tool-Calling-Schnittstelle des Modells per Reinforcement Learning eng aufeinander abgestimmt sind – das ist ein weiterer Grund, warum es Unterschiede gibt, selbst wenn man die Modellintelligenz kontrolliert
      Auch der Gründer von opencode, einer Open-Source-Coding-Laufzeitumgebung mit Unterstützung für mehrere Modellanbieter, hat sich kürzlich darüber beklagt, wie schwierig es ist, die Laufzeitumgebung jeweils gut auf einzelne Anbieter abzustimmen: https://x.com/thdxr/status/2053290393727324313
  • Die Beispiele im Beitrag bestätigen für mich, dass lokale Modelle nicht mit Frontier-Modellen konkurrieren müssen, um erfolgreich zu sein – sie müssen nur gut genug sein
    Sie müssen kleine Aufgaben gut erledigen und auf Consumer-Geräten vernünftig laufen
    Wenn sie auch auf Smartphones laufen, umso besser
    Nach meinen Experimenten mit lokalen LLMs hilft ein größeres Modell zwar, aber der eigentliche Faktor, der ein fast nutzloses Modell in ein nützliches verwandelt, war die Fähigkeit zum Tool-Einsatz
    Websuche und das Abrufen von Webseiten zu erlauben, hat Halluzinationen viel stärker reduziert als ein größeres Modell, und das Problem des abgeschnittenen Trainingszeitpunkts entfällt ebenfalls
    Natürlich können größere Modelle Tools womöglich besser nutzen, aber oft reichen auch kleinere Modelle aus

  • Ich habe eine Demo gebaut, was man mit der neuen Prompt API von Chrome machen kann, die lokale Modelle nutzt: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
    Wie im Originalbeitrag entfaltet sie ihre Stärke in einer begrenzten Umgebung, in der Daten transformiert werden, die dem Nutzer gehören
    Für offenere Aufgaben ist sie eindeutig weniger nützlich

    • Ich würde Chrome Prompt API nicht als gutes Beispiel für ein lokales LLM empfehlen
      Es ist okay, aber wirklich schwach
      8B-Modelle von vor einem Jahr waren in mancher Hinsicht besser, und neuere Modelle sind spürbar stärker geworden
    • „Werbetexte anhand des umgebenden Kontexts umschreiben“ – genau, das ist also der Plan
      Ohne lokales Modell und ohne Webseite geht es nicht
      Während alle anderen für Stromverbrauch und Hardwareverschleiß zahlen, bekommen die Anbieter mehr, bessere und billigere Adtech-Ausbeutung und Überwachung
    • Man lässt also ein LLM laufen, um Datentransformationen zu machen, für die deterministische Verfahren viel besser geeignet wären, und benutzt dafür ein 1000-Watt-Netzteil
      Ganz großartig
  • Bestehende Akteure werden alles daransetzen, lokal zu verhindern, aber es gibt einige technische Gründe dafür, dass kleine, spezialisierte Modelle am Ende zum Standard werden könnten
    Dann würde lokal automatisch nachziehen
    Der Originalbeitrag fokussiert darauf, ob Nutzer für das, was sie wollen, überhaupt große Modelle brauchen
    Es gibt aber auch Gründe dafür, dass große Modelle möglicherweise nie wirklich zuverlässig genug werden, außer wenn a) die mechanistische Interpretierbarkeit weit genug reift oder b) Multi-Agenten-Systeme ohnehin komplett multi-modellig werden
    Im Fall von a könnte Fortschritt in der mechanistischen Interpretierbarkeit zwar Probleme großer Modelle beheben, zugleich aber auch ermöglichen, integrierte Repräsentationen zu gewinnen und aus riesigen Modellen nur die nützlichen Teile herauszuschneiden
    Man würde nur das Nötige übernehmen und den Rest verwerfen, um Kosten und Angriffsfläche zu reduzieren
    Braucht man nur Logik? Nur Vision? Dann nimmt man eben genau diesen Teil aus dem riesigen Monster
    Die Fähigkeit, Probleme zu isolieren, wird schwerlich kommen, ohne auch funktionale Subsysteme isolieren zu können
    Im Fall von b muss man sich nur Kategorien wie Evil Vectors oder auf Tool-Nutzung spezialisierte Halluzinationen ansehen
    Ohne eine vollständige Lösung für Helpful/Honest/Harmless-Alignment ist es gut möglich, dass Kreativität und Strenge sowie viele andere Faktoren grundsätzlich in Spannung zueinander stehen
    Wenn man für alles ohnehin mehrere Modelle braucht, warum dann noch ein teures, riesiges Universalmodell
    Spezialisierung erzeugt damit ebenfalls Druck, alles auf das Minimum an vertrauenswürdigen Expertenmodellen zu reduzieren

  • Mein Problem mit LLMs ist – unabhängig von der philosophischen Seite und den wirtschaftlichen Folgen –, dass es schwierig scheint, funktionsfähige Modelle lokal zu trainieren
    Spielzeug-LLMs sind machbar, aber wirklich nützliche eher nicht
    Man braucht nicht nur enorme Rechenleistung, sondern meist auch Datensätze, die größtenteils illegal beschafft wurden

    • Das wirkt zu pessimistisch
      Ich bin persönlich vielleicht nicht besonders intelligent, aber um die Intelligenz zu bekommen, die ich heute habe, musste ich nicht alle jemals geschriebenen Bücher, alle Wikipedia-Artikel, alle Blogbeiträge, alle Referenzhandbücher und jede einzelne Codezeile trainieren
      Nicht einmal 1 % davon, ja nicht einmal 0,00000000001 %
      Es ist offensichtlich, dass Text selbst keine Voraussetzung für Intelligenz ist
      Wenn schon meine lose Beobachtung der Umgebung über etwa 20 Jahre an Intelligenz heranreicht, dann ist das ein starkes Indiz dafür, dass der nötige Datensatz einfach aus Sensoren und der umgebenden Welt besteht
      Natürlich startet das menschliche Gehirn nicht bei null; es gab Millionen Jahre Evolution, um den Boden zu bereiten, in dem Intelligenz Wurzeln schlagen kann
      Aber diese Grundstruktur ist ziemlich allgemein und scheint nicht von einem bestimmten Trainingssatz abzuhängen
      Vielleicht kann man sie auch künstlich evolvieren lassen
    • Mit dem heutigen Stand der Technik geht das noch nicht für ein vollständiges Modell, aber LoRA eignet sich hervorragend für Finetuning und lässt sich auf einem leistungsfähigen Gaming-Rechner in wenigen Stunden erstellen
      Solange das Basismodell meine Sprache unterstützt, könnte ich wahrscheinlich mit der freien Rechenleistung meiner vorhandenen Geräte pro Monat einige LoRAs trainieren
      Wenn normale Heimcomputer in Zukunft Fähigkeiten auf heutigem Serverniveau haben, wird man zu Hause auch vollständige LLMs trainieren können
    • Das ist wichtig, weil ein Modell auch dann noch ein proprietäres Modell sein kann, wenn es lokal läuft
      Ich habe keinerlei Einfluss darauf, womit es trainiert wurde, wie die Trainingsdaten gelabelt wurden, welche Guardrails es gibt oder welche Biases enthalten sind
    • Es gibt viele Technologien, die man lokal nicht reproduzieren kann, und ich glaube nicht, dass LLMs da grundsätzlich anders sind
      Wie bei allem anderen wird es große LLM-Hersteller, kleine LLM-Hersteller, handwerkliche LLM-Bauer, LLM-Enthusiasten und LLM-Konsumenten geben
    • Das hängt vom Bereich ab
      Es gibt ziemlich viele Anwendungsfälle, in denen man die nötigen Trainingsdaten für private oder nichtkommerzielle Nutzung beschaffen kann
      Ab dann ist es nur noch eine Frage von Rechenaufwand und Zeit, und wenn man bereit ist zu warten, kann man auch mit Consumer-Hardware nützliche Modelle bauen
  • Es stimmt schon, dass man „Cloud-Modelle nur nutzen sollte, wenn sie wirklich nötig sind“, aber das Problem ist, dass es viel einfacher ist, subventionierte State-of-the-Art-Modelle zu verwenden, als Zeit damit zu verbringen, lokale Modelle richtig einzurichten
    Das ist mir bei Coding-Agenten gerade erst klar geworden
    Man muss nicht immer die neueste Version auf xhigh nutzen, aber am Ende tut man es doch
    Weil man die Arbeit in kürzerer Zeit, mit weniger Aufwand und faktisch zum gleichen Preis erledigt bekommt
    Erst wenn große Anbieter anfangen, wirklich nach Tokenverbrauch abzurechnen, wird es vermutlich ernsthafte Bemühungen um lokale AI geben

    • Dass State-of-the-Art-Modelle einfacher zu nutzen sind, ist kein Problem, sondern ein Feature
      Ich habe ungefähr acht Tabs mit Anbietern auf kostenloser Stufe offen, und ChatGPT, Claude und Gemini bilden dabei die Spitze
      Ich kann eines bis zum Limit nutzen und dann problemlos zum nächsten wechseln
      So kann ich den ganzen Tag lang bestimmte Funktionen oder Klassen in meinem Code implementieren lassen
      Weil ich tatsächlich weiß, wie man Software schreibt und entwirft, muss ich nicht ständig denselben Agenten erneut laufen lassen, um an einem Tag alles zu erzeugen
      Schon mit Web-Chatbots und Copy-and-Paste kann ich tausende Zeilen Code pro Stunde erzeugen, dabei ein starkes mentales Modell meines Codes behalten und die nötigen Teile selbst anpassen
      Genau das habe ich heute Morgen in einem Python-Projekt gemacht
      Weil ich entworfen habe, was ich brauche, bestand jede Generierung darin, nach genau einer Funktion zu fragen, und als ich am Morgen noch etwas ergänzen musste, habe ich den Chatbot gar nicht gefragt, sondern bin direkt an die richtige Stelle gegangen und habe es selbst korrigiert
      Wenn man alles aus einer Spezifikation komplett generieren lässt, geht das nicht
    • Der Weg des geringsten Widerstands gewinnt meistens
      Besonders dann, wenn der Preis die tatsächlichen Kosten verschleiert
    • Ich sehe bei lokalen Modellen keine guten Ergebnisse
      Jedes Mal, wenn ein Beitrag über LLMs erscheint, behaupten in den Kommentaren viele sehr überzeugt, dass sie mit aktuellen DeepSeek/Qwen usw. Ergebnisse auf Opus-Niveau erzielen, aber meine Erfahrung ist völlig anders
      Open-Source-Modelle brechen im Vergleich zu Claude völlig ein, sobald man ihnen auch nur etwas komplexere Aufgaben gibt
      Ich frage mich, ob wir nicht eine ähnliche Situation wie bei Linux in den 90ern erleben
      Es funktionierte irgendwie, war aber für Heimanwender überhaupt nicht bereit, und trotzdem haben viele einem aus ideologischen Gründen ins Gesicht gesagt, alles sei in Ordnung
  • Die Leute versuchen tatsächlich, „die beste Software“ zu bauen
    Die KI-donquichottischen Akzelerationisten sind unter den Menschen, die Software bauen, eher eine laute Minderheit, und wenn man Online-APIs lokalen Systemen vorzieht, ist das meistens keine Faulheit von Entwicklern, sondern eine Entscheidung für die Nutzer
    Im Moment kann man mit proprietärer AI mehr Dinge besser erledigen als mit lokalen Modellen
    Daran führt kein Weg vorbei
    Selbst wenn lokale AI besser wird, bleibt es oft eine lohnende Investition, an der Front der LLM-Leistung zu sein
    Die meisten Menschen akzeptieren ein Produkt nur, wenn es erstklassig und extrem bequem ist
    Diese Hürde ist hoch, und lokale AI nimmt sie oft nicht
    Diese HN-Fixierung darauf, alle Nutzer als Open-Source-, Privacy-First-, Self-Hosting-Linux-Fanatiker zu behandeln, ist peinlich altbacken