11 Punkte von GN⁺ 2025-09-09 | 3 Kommentare | Auf WhatsApp teilen
  • Erläuterung, wie man lokale LLMs auf macOS ausführt, und empfohlene Tools
  • Lokale LLMs sind KI-Sprachmodelle, die auf dem eigenen Computer laufen, dabei die Datenprivatsphäre wahren und experimentelle Technik-Erkundung ermöglichen
  • Mit verschiedenen Open-Weight-Modellen sind sie nützlich für Textzusammenfassungen und persönliche Notizen, besitzen jedoch weder Kreativität noch Denkfähigkeit
  • Die zwei wichtigsten auf macOS nutzbaren Tools sind llama.cpp und LM Studio, die jeweils Open Source bzw. eine benutzerfreundliche UI bieten
  • Bei der Modellauswahl sollten Speicherkapazität, Runtime, Quantisierungsgrad sowie Vision- und Reasoning-Fähigkeiten berücksichtigt werden
  • Das Ausführen lokaler LLMs trägt zu Privatsphäre-Schutz und technischer Neugier bei; kleinere Modelle bieten als Alternative zu großen Modellen experimentellen Mehrwert

Einleitung: Persönliche Sicht auf LLMs und ihre Nutzung

  • Dieser Artikel behandelt die Erfahrung, lokale LLMs (Local Large Language Models) direkt auf macOS zu installieren und damit zu experimentieren
  • Der Autor steht LLMs zwar skeptisch gegenüber, probiert neue Technologien aber gern aus und hat sie deshalb selbst heruntergeladen und genutzt
  • Seine Sicht liegt zwischen der Auffassung, LLMs seien nur eine Form von fortgeschrittener Autovervollständigung, und Behauptungen, es handle sich um Wesen mit Gefühlen und Rechten
  • Tatsächlich beruhen sie auf der Vorhersage des nächsten Wortes, zeigen dabei aber komplexes unbeabsichtigtes Verhalten (emergente Fähigkeiten)
  • Kreativität oder Selbstbewusstsein besitzen sie nicht; künftig könnten zwar weiter entwickelte Maschinen entstehen, doch der aktuelle Stand der Technik hat dieses Niveau nicht erreicht

Hauptsächliche Einsatzbeispiele für LLMs

  • Besonders nützlich sind sie für Textzusammenfassungen, die Bereitstellung von Internetinformationen und einfache medizinische Informationen
  • Der Autor nutzt sie als Brain-Dumping-Werkzeug, also zum Ausschütten von Gedanken, wenn ein Gesprächspartner gebraucht wird
  • Auf die Antworten selbst legt er keinen besonderen Wert und verwendet sie nur als Aufzeichnung
  • Wichtig ist, der KI nicht übermäßig Gefühle zuzuschreiben oder sie zu vermenschlichen
  • Mit System-Prompts lässt sich das Antwortverhalten eines Modells zwar steuern, der Autor misst dem aber keine große Bedeutung bei

Produktivität und Fragen der Zuverlässigkeit

  • Der Autor stimmt der Behauptung nicht zu, dass LLMs die „Produktivität“ steigern
  • Wegen der Zuverlässigkeitsprobleme ihrer Antworten (Unsinn, Halluzinationen) ist ein Faktencheck zwingend erforderlich
  • Fragen, die sich nur schwer verifizieren lassen, sollte man besser vermeiden, um Informationsverschmutzung vorzubeugen

Warum lokale LLMs verwenden

  • Sie bieten die Freude am technischen Experimentieren und das faszinierende Erlebnis, dass ein Computer lokal in natürlicher Sprache reagiert
  • Wenn alles nur auf dem eigenen Rechner läuft, gibt es Vorteile bei Privatsphäre und Schutz sensibler Informationen
    • Viele AI-Dienstleister speichern Nutzerdaten separat und verwenden sie für das Training
  • Wegen Misstrauen gegenüber kommerziellen AI-Unternehmen, ethischer Probleme, überzogenem Marketing, Umweltzerstörung und Urheberrechtsverletzungen bevorzugt der Autor lokale Open-Source-Modelle

So führt man LLMs auf macOS aus

  • Die zwei wichtigsten auf macOS nutzbaren Tools sind llama.cpp und LM Studio
  • 1. llama.cpp (Open Source)

    • Entwickelt von Georgi Gerganov
    • Bietet zahlreiche detaillierte Konfigurationsoptionen, unterstützt verschiedene Plattformen, erlaubt Modelldownloads und stellt eine einfache Web-UI bereit
    • Beispiel:
      • Mit dem Befehl llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF lässt sich das empfohlene Modell Gemma 3 4B QAT ausführen
      • Beim Aufruf von http://127.0.0.1:8080 im Browser erscheint eine minimale, ChatGPT-ähnliche UI, die sich gut für Experimente eignet
  • 2. LM Studio (Closed Source, einfach zu benutzen)

    • Bietet eine intuitive und fortgeschrittene UI mit Funktionen zum Durchsuchen/Herunterladen von Modellen, zur Gesprächsverwaltung sowie Hinweisen, ob ein Modell ausgeführt werden kann
    • Integrierte Guardrails verhindern, dass zu große Modelle geladen werden und das System abstürzt
    • Unterstützt auf macOS zwei Runtimes: llama.cpp und Apples MLX-Engine
      • MLX ist schneller, bietet aber weniger Detailkonfiguration
    • Wichtige Nutzungstipps:
      • Das Modell kann während eines Gesprächs gewechselt werden
      • Gesprächs-Branches können erstellt werden, um verschiedene Experimente durchzuführen
      • Sowohl Nutzer- als auch Assistentennachrichten lassen sich bearbeiten
      • Presets für System-Prompts können erstellt und wiederverwendet werden
      • Es lässt sich festlegen, wie bei Überschreiten des Kontextfensters verfahren werden soll (Standardoptionen wie Beibehaltung früher/später Nachrichten sind vorhanden)

Kriterien für die Auswahl eines guten LLM-Modells

  • Modellgröße: Nicht der Festplattenspeicher, sondern vor allem der Arbeitsspeicher (RAM) ist die zentrale Einschränkung
    • In einer Umgebung mit 16 GB RAM werden Modelle mit höchstens 12 GB empfohlen; darüber hinaus kann das System instabil werden
    • Größere Modelle sind langsamer, und bei Speichermangel kann das gesamte System instabil werden
  • Auswahl der Runtime:
    • llama.cpp und die Standard-Runtime von LM Studio benötigen Modelle im GGUF-Format
    • Die MLX-Runtime von LM Studio benötigt MLX-spezifische Modelle
    • GGUF-Modelle sind auf verschiedenen Plattformen stabil und bieten viele Konfigurationsmöglichkeiten
    • MLX-Modelle liefern auf Apple Silicon eine etwas bessere Leistung
  • Quantisierung: Balance zwischen Modellleistung und Speichereffizienz
    • Die meisten LLMs werden mit 16-Bit-Präzision trainiert
    • Selbst bei Quantisierung auf niedrigere Bitbreiten wie 4 Bit bleibt der Leistungsverlust bis zu einem gewissen Punkt gering; allgemein gilt Q4 als passend
    • Es gibt komplexe Quantisierungsbezeichnungen je nach Kernel (z. B. Q4_K_M), aber Einsteigern wird empfohlen, die Standardwerte zu verwenden
  • Vision-Modelle: Modelle, die Bilder verarbeiten können
    • Einige Modelle analysieren Bildeingaben, indem sie diese tokenisieren (Texterkennung, Objekterkennung, Einschätzung von Stimmung/Stil usw.)
    • Einfache OCR ist möglich, die Zuverlässigkeit bleibt jedoch hinter spezialisierter OCR-Software zurück
  • Reasoning-Fähigkeiten: Manche Modelle enthalten vor der Antworterzeugung einen Gedankengang
    • Einige Modelle ergänzen vor der Erstellung einer Antwort einen Reasoning-Prozess und verstärken damit die „Denk“-Funktion gegenüber allgemeinen Modellen
    • Kleine, auf Reasoning spezialisierte Modelle können mittelgroße bis große allgemeine Modelle übertreffen (was sich auch in Benchmarks zeigt)
    • Reasoning-Modelle brauchen länger bis zur Antwort und füllen das Kontextfenster schneller
  • Tool-Nutzung: Aufruf externer Tools möglich
    • Über Tool-Calling-Tokens können die im System-Prompt definierten Funktionen von MCPs (Tool-Servern) genutzt werden
    • In LM Studio lassen sich Tools leicht hinzufügen und verwalten; Tool-Aufrufe bergen Sicherheitsrisiken (mögliche Datenexfiltrationsangriffe), daher ist standardmäßig eine Bestätigung durch den Nutzer erforderlich
    • Standardmäßig ist JavaScript MCP (auf Deno-Basis) enthalten, womit sich komplexe Berechnungen, Datenanalysen, Zufallsgenerierung und weitere Automatisierungen umsetzen lassen
    • Mit einem zusätzlichen Web-Suche-MCP können Echtzeit-Suchergebnisse einbezogen und die Begrenztheit des Weltwissens des Modells erweitert werden
    • Wenn Langzeitgedächtnis benötigt wird, können verschiedene Erweiterungsserver wie etwa ein MCP für Obsidian genutzt werden
      • Allerdings füllt MCP den Kontext schnell, daher sollte es nur bei wirklichem Bedarf aktiviert werden
  • Agents
    • Ein Agent bezeichnet eine Modellstruktur, die wiederholt Tools verwendet
    • Modelle, die sowohl Reasoning- als auch Tool-Nutzungsfähigkeiten kombinieren, werden üblicherweise als Agenten eingeordnet
    • Das ist noch nicht perfekt, bietet aber ein herausforderndes und interessantes Konzept

Empfohlene Modelle und Nutzungstipps

  • In der integrierten UI von LM Studio lassen sich Runtime, Quantisierung, Modelleigenschaften, Größe usw. leicht vergleichen und erkunden
  • Bei llama.cpp kann auf Hugging Face der Bereich für GGUF-Modelle genutzt werden
  • Da es nicht viele Modelle gibt, die alle Anforderungen erfüllen, wird empfohlen, verschiedene Modelle herunterzuladen und zu testen
  • Empfohlene Modellliste:
    • Gemma 3 12B QAT: stark bei Vision-Aufgaben, schnell und gut bei der Texterzeugung
    • Qwen3 4B 2507 Thinking: klein, sehr gut bei Geschwindigkeit/Qualität, in einer Reasoning- und einer allgemeinen Variante verfügbar
    • GPT-OSS 20B: derzeit beste Leistung, unterstützt dreistufiges Reasoning, langsam, aber mit der höchsten Leistungsfähigkeit
    • Phi-4 (14B): früher bevorzugt, weiterhin in Reasoning- und allgemeiner Version verfügbar

Fazit und Nutzungstipps

  • Auch wenn kleine Modelle große aktuelle Modelle nicht vollständig ersetzen können, ist der Nutzen der lokalen Ausführung eindeutig
  • Lokale Tests helfen dabei, die Funktionsweise von Algorithmen zu verstehen und die eigenen Fähigkeiten zur Kompensation ihrer Schwächen zu verbessern
  • LM Studio zeigt die Auslastung des Kontextfensters in Echtzeit an
    • Lässt man den Gesprächsinhalt kurz vor Erreichen des Limits zusammenfassen, hilft das, wichtige Informationen zu bewahren
  • Lokale LLMs kann man sich wie einen persönlichen digitalen Genie im Computer vorstellen und sich auf eine unterhaltsame Experimentiererfahrung freuen

3 Kommentare

 
tensun 2025-09-11

ollama mit qwen3:4b ist empfehlenswert.

 
yolatengo 2025-09-11

Keine Erwähnung von Ollama.

 
GN⁺ 2025-09-09
Hacker-News-Meinungen
  • Ich finde es immer noch faszinierend, dass man wie durch Magie nur etwa 10 GB an Dateien herunterladen muss und dann auf dem Laptop Textzusammenfassungen, Frage-Antworten und sogar einfache Schlussfolgerungen bekommt. Entscheidend ist das Gleichgewicht zwischen Modellgröße und RAM. Auf Maschinen mit 16 GB liegt die Grenze ungefähr bei 12B bis 20B. Diese Modelle nutzen in der Praxis aber nicht Apples Neural Engine (ANE), sondern laufen über Metal auf der GPU. Core ML ist für Custom-Runtimes noch nicht besonders gut, und Apple bietet auch keinen Low-Level-Entwicklerzugang zur ANE. Dazu kommen Probleme mit Speicherbandbreite und SRAM. Hoffentlich kann Apple Transformer-Workloads irgendwann über Core-ML-Optimierungen gut auf die ANE abbilden

    • Ich hatte schon länger das Gefühl, dass Apple einen neuen CEO braucht. Wenn ich Apple führen würde, hätte ich lokale LLMs offensiv eingeführt und eine Inference-Engine gebaut, die auch für Modelle optimiert ist, die für Nvidia entworfen wurden. Ich würde Serverklasse-Apple-Silicon-Prozessoren verkaufen und die GPU-Spezifikationen öffnen, damit alle sie direkt nutzen können. Apple scheint mir zu sehr nur den sicheren Weg zu gehen. Tim Cook ist als COO hervorragend, führt das Unternehmen aber immer noch auf genau diese Weise. Jetzt braucht es meiner Meinung nach keinen COO, sondern einen Innovator

    • Nach den Informationen aus dem Reverse Engineering (etwa Fällen mit direktem ANE-Zugriff unter Asahi Linux) ist die Apple Neural Engine der M1/M2-Generation nur für statisch geplante MADDs mit INT8- oder FP16-Werten optimiert. Moderne lokale Modelle sind stärker quantisiert, wodurch Speicherbandbreite verschwendet wird, wenn Modellwerte auf FP16/INT8 aufgefüllt werden. Die GPU kann Eingaben dagegen schnell dequantisieren, in Registern auffüllen und dann an die Matrixeinheiten weitergeben, sodass die Speicherbandbreite effizienter genutzt wird. Trotzdem könnten NPU/ANE für Dinge wie Prompt-Vorverarbeitung nützlich sein. Dort ist eher der Durchsatz der Rechenoperationen als die Tokengenerierung der limitierende Faktor, was den Stromverbrauch senken und Kühlungsgrenzen umgehen kann. Mehr Informationen: Whisper.cpp Pull Request, ältere ANE-Informationen, ausführliche Übersicht von tinygrad. Für M3/M4 gibt es noch keine Asahi-Unterstützung, daher ist unklar, wie es dort weitergeht. Bei der M3-Serie scheint der Leistungsunterschied zu M2 ebenfalls nicht groß zu sein

    • Falls man hofft, dass Transformer-Workloads auf der ANE gut laufen, gibt es bereits Werkzeuge, mit denen sich Modelle konvertieren lassen.<br>So konvertiert man Modelle aus TensorFlow, PyTorch usw. nach Core ML: CoreML Tools Docs

    • Ich fand es auch interessant, dass Apples Neural Engine nicht mit lokalen LLMs zusammenspielt. Apple, AMD und Intel scheinen alle keine vernünftige NPU-Unterstützung in llama.cpp hinzubekommen. Ich frage mich, warum

    • Ich betreibe sowohl GLM 4.5 Air als auch gpt-oss-120b ziemlich brauchbar. Vor allem die Latenz von GPT OSS ist ordentlich. Grundlage ist ein 128-GB-M4-MacBook. Im Moment ist das extrem leistungsfähig, aber bald wird es normal sein. Diese Modelle nähern sich inzwischen den führenden Modellen an

  • Bisher waren lokale LLMs für mich so eingeschränkt wie ChatGPT in der frühen Version von 2022, sodass ich keine wirklich brauchbaren Anwendungsfälle gefunden habe. Mich würde interessieren, welche nützlichen Einsatzszenarien die Community gefunden hat. Als Beispiel wurde erwähnt, dass ein lokales LLM ein Interview mit Sun Tzu erfunden habe, und genau solche Grenzen lassen mich zögern. Deshalb frage ich mich, wofür man sie tatsächlich verwenden kann

    • Ich habe viele LLMs ausprobiert, aber auf einem MacBook mit mehr als 48 GB ist Gemma3:27b erstklassig für die Analyse persönlicher Tagebücher oder sensibler Daten. Chinesische Modelle geben bei Lebensberatung oft unfreiwillig komische Antworten. Ich habe zum Beispiel Deepseek um Rat zu einem Problem gebeten, und es entwarf mir einen konfuzianischen Lebensplan. Gemma ist deutlich westlicher geprägt

    • Lokale LLMs nutze ich vor allem für Automatisierung statt für faktische Aufgaben. Zum Beispiel für Klassifizierung, Zusammenfassung, Suche oder Rechtschreibprüfung. Das Modell muss meine gewünschte Sprache oder Alltagskonzepte verstehen, braucht aber nicht das gesamte Wissen über Menschheitsgeschichte, Programmiersprachen oder Gesundheit. Man muss das LLM nicht einmal direkt prompten; das OS oder Apps können es bei Bedarf automatisch verwenden

    • Ich schreibe in Obsidian alles mit: meine Gefühle, Gedanken, was ich getan habe und so weiter. Solche intimen Notizen möchte ich nicht in die Cloud laden, deshalb verwalte ich sie mit chromeDB und spreche per LLM damit. In letzter Zeit nutze ich auch abliterated Modelle, bei denen Ablehnungen entfernt wurden (Ablehnungen mit transformers entfernen). Auch bei der Arbeit nutze ich das. Ich habe ein mcp gebaut, das Finanzdatenarbeit automatisiert, und da das Modell lokal läuft, muss ich mir über Informationsabfluss keine Sorgen machen

    • Man kann sie auch in Umgebungen mit schlechtem oder häufig ausfallendem Internet nutzen. Selbst ein nicht führendes LLM ist viel besser als gar keins. Wenn zum Beispiel wegen eines Sturms das Internet ausfällt, kann man nötige Sicherheitshinweise sofort aus einem lokalen LLM bekommen

    • Ich nutze lokale Modelle für App-Prototypen oder in frühen Phasen der Entwicklung.<br>Erstens senken sie die Entwicklungskosten eindeutig. Zweitens helfen sie, wegen ihrer Leistungsgrenzen die Komposition sorgfältiger zu gestalten. Wenn man Arbeitsabläufe mit halbwegs brauchbaren lokalen Modellen wie gpt-oss oder qwen3 entwirft, bekommt man später beim Wechsel zu Cloud-Modellen wie gpt-5-mini sofort ein Leistungsupgrade. Natürlich muss man die Beschränkungen lokaler Modelle nicht akzeptieren, wenn man einfach alle Dokumente in das Kontextfenster eines Cloud-Modells werfen und gute Ergebnisse bekommen kann. Langfristig kann es aber günstiger und schneller sein, Aufgaben aufzuteilen und lokal auszuführen

  • Ich habe Hermes Mistral ausprobiert, und schon von Anfang an waren die Halluzinationen stark. In letzter Zeit speichere ich Audio-Traumjournale privat in einem Obsidian-Ordner. Ich wollte .wav-Dateien mit Whisper transkribieren und dann nur Interpunktion und Absätze von einem lokalen LLM überarbeiten lassen. Ich habe ausdrücklich darum gebeten, nichts hinzuzufügen und nur die Lesbarkeit zu verbessern, aber Hermes fing plötzlich an, ein Interview mit Sun Tzu über Die Kunst des Krieges zu erfinden. Als ich den Prozess stoppte, entschuldigte es sich, konnte aber nicht erklären, warum es überhaupt auf Sun Tzu gekommen war. Wenn ich solche seltsamen Halluzinationen ständig aufspüren muss, bearbeite ich es lieber selbst. Diese Logik gilt für fast alle Bereiche, in denen man lokale LLMs einsetzen möchte. Hoffentlich wird das irgendwann besser

    • Ich dachte früher, Genauigkeit oder eine „richtige Antwort“ müsste für Computer leicht sein, solange die Logik stimmt. Eher Originalität und Kreativität erschienen mir schwierig und unlogisch. Umso irritierender ist es, dass AIs anscheinend besonders gut darin sind, sich völlig schräges Zeug auszudenken. Am Ende ist das vielleicht nur folgerichtig, weil wir der AI menschliche Kommunikation beigebracht haben. Es war womöglich nicht die beste Idee, Daten wie Reddit als Trainingsquelle zu verwenden. Gibt man Reddit hinein, kommt Reddit heraus
  • Ich glaube, bis man Spitzen-LLMs direkt auf dem Smartphone oder Laptop laufen lassen kann, ist es noch ein weiter Weg. Kurzfristig erscheint ein AI-Serverkasten zu Hause realistischer, auf dem das LLM läuft. Thin Clients wie Laptops greifen dann darauf zu und erledigen bei Bedarf lokal noch passende Aufgaben mit kleineren Modellen. Wenn Apple diese Strategie mit dem Mac Pro weiterverfolgen würde, wäre das nur konsequent. Einen LLM-Heimserver für 10.000 bis 20.000 Dollar könnte ich durchaus nachvollziehen

    • Schon jetzt kann man auf einem Mac Studio mit 512 GB Speicher (etwa 10.000 Dollar) aktuelle Open-Source-Modelle ausführen. Beispiele: Video von Qwen3-Coder-480B-A35B-Instruct mit 4 Bit bei 24 Token pro Sekunde, Deep Seek V3 0324 mit 4 Bit bei 20 Token pro Sekunde. Man kann auch zwei Mac Studios mit MLX koppeln und noch größere Modelle ausführen. Beispiel für 671B 8-Bit DeepSeek R1

    • Ich halte den Mac Pro wegen der Kosten des großen Gehäuses für viel zu teuer und praktisch wenig sinnvoll. Das Studio ist vernünftiger. Nvidia und AMD werden demnächst wohl ebenfalls große Mengen an GPU-Speicher mit hoher Bandbreite im Desktop-Formfaktor unterstützen. Wenn man dann vom Laptop oder anderen Geräten auf den LLM-Server zu Hause zugreift und ihn lokal ohne Akku-Sorgen nutzt, wäre das ideal

    • Bei mir läuft ein AMD 395+ mit mehreren Docker-Containern für verschiedene Anwendungen. Ich nutze hauptsächlich Qwen Code und das Modell GPT OSS 120b. Wenn bald die nächste Generation erscheint, werde ich trotz des hohen Preises aufrüsten. Es ist es wert

    • Ein Preis von 10.000 bis 20.000 Dollar ist für die meisten völlig absurd hoch. Mit einem Silicon-Valley-Gehalt mag das gehen, aber selbst die deutlich günstigere Apple Vision Pro hat sich schlecht verkauft

    • Liefert gpt-oss-120b nicht bessere Leistung mit deutlich weniger Speicher? Mit einem Mac Studio für 4.000 Dollar und 128 GB RAM sollte man es doch problemlos betreiben können

  • Das hat zwar nichts mit dem Thema zu tun, aber der Wellentexteffekt im ersten Absatz unter „opinions“ war beeindruckend

    • Danke. Genau das war der eigentliche Kern des gesamten Beitrags
  • Ich glaube, lokale LLMs sind die Zukunft. Mit der Zeit werden sie sich immer weiter verbessern. Wenn nur schon Modelle auf dem Niveau des letzten Jahres verteilt werden, gibt es kaum noch einen Grund, chatgpt, anthropic oder andere Cloud-Dienste zu nutzen. Man braucht gar kein riesiges Modell, das alles erledigt. Die Vorstellung, je nach Aufgabe mehrere kleine Modelle aufzurufen, wird Realität. Es gibt keinen Burggraben mehr

    • Die Leistung lokaler LLMs wird sicher weiter steigen, aber ich bin mir nicht sicher, wann sie für normale Nutzer wirklich praktikabel werden. Die Fähigkeiten lokaler Modelle beim Schließen und Coden haben enorme Fortschritte gemacht, aber das liegt an besseren Trainingsdaten und Techniken wie RLHF, DPO oder CoT. Entscheidend ist aber, Halluzinationen durch die rohe statistische Ausgabe riesiger Parameter-Sätze in voller Präzision zu minimieren, und zwischen solchen Modellen und normalen Verbrauchern liegt eine gewaltige Hardware-Lücke. Das dürfte noch mindestens zehn Jahre dauern

    • Ich glaube, sichere und private Cloud-Computing-Angebote sind die Zukunft

  • In Blogposts oder Artikeln über die Nutzung lokaler LLMs sollte man immer angeben, auf welcher Hardware getestet wurde

    • Guter Hinweis, ich ergänze schnell eine Notiz
  • Ich stimme für LM Studio. Es bietet viele vorkonfigurierte Optionen, sodass man intuitiv versteht, was das eigene MacBook leisten kann und wie man es einrichtet. Ein bis zwei Stunden sehr gut investierte Zeit

    • Ein CLI-Tool und ein OpenAI-kompatibler Server sind ebenfalls standardmäßig enthalten. Man kann ein Modell laden, einen Endpoint öffnen und es auch in lokalen Skripten verwenden. Erst mit der Chat-Oberfläche ein Gefühl dafür bekommen und danach programmatisch erweitern
  • Ich habe als Hobby einen 16-GB-Mac Mini, auf dem ich wahllos Modelle herunterlade und ausprobiere, und die Modell-Empfehlungsliste des Autors ist wirklich hilfreich. Ich behalte pro Größenklasse nur vier oder fünf Modelle, und das ist am effizientesten

  • Mozilla-Ocho/llamafile ist ebenfalls einen Blick wert