18 Punkte von GN⁺ 2025-05-02 | 3 Kommentare | Auf WhatsApp teilen
  • Mithilfe der MLX-Bibliothek direkt auf dem Mac ausführen und das leistungsstarke aktuelle Modell Qwen3-30B-A3B-8bit lokal bereitstellen
  • In Localforge per OpenAI-API-Anbindung integrieren und so eine Agent-Loop aufbauen
  • Durch die zusätzliche Einrichtung eines ollama-basierten Hilfsmodells (Gemma3) lässt sich die Assistenzrolle des Agenten trennen, wodurch Tools effizienter genutzt werden können
  • Nach der Konfiguration des Agenten in der UI von Localforge kann er „LS-Tool ausführen“, Websites erstellen und sogar automatisch ein Snake-Spiel starten
  • Der gesamte Ablauf ist kostenlos und kann vollständig autonom lokal betrieben werden – für Mac-Nutzer ein Projekt, das sich direkt ausprobieren lässt

Qwen3 lokal auf dem Mac ausführen

  • Ziel: Das aktuelle Qwen3-Modell auf dem Mac ausführen und mit Localforge in einen Agenten verwandeln, um Coding-Automatisierung zu erproben
  • Qwen3 wird über Ollama und die HuggingFace-MLX-Community verteilt
  • Schritt 1: MLX-Umgebung installieren

    pip install mlx  
    pip install mlx-lm  
    
  • Schritt 2: Modellserver starten

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • Das Modell wird automatisch heruntergeladen und als API-Server auf Port 8082 gestartet
    • Wenn im Log die Meldung "Starting httpd..." erscheint, läuft alles korrekt

Localforge einrichten

  • Offizielle Website: https://localforge.dev
  • Nach der Installation ist in den Einstellungen folgende Konfiguration erforderlich:
  • Provider hinzufügen

    • a) Ollama-Provider (Hilfsmodell)
      • Name: LocalOllama
      • Typ: ollama
      • Erforderliche Installation: Modell gemma3:latest (geeignet für einfache Sprachverarbeitung)
    • b) Qwen3-Provider (Hauptmodell)

  • Agent erstellen

    • Name: qwen3-agent
    • Hauptmodell: qwen3:mlx:30b (Modellname: mlx-community/Qwen3-30B-A3B-8bit)
    • Hilfsmodell: LocalOllama (Modellname: gemma3:latest)

Fazit

  • Auf dem Mac lassen sich große Modelle kostenlos lokal ausführen, um agentenbasiertes automatisches Coding zu ermöglichen
  • Durch die Auswahl des Modells oder Tuning des System-Prompts sind noch präzisere Ergebnisse möglich
  • Localforge + MLX + Qwen3 ist eine sehr nützliche Kombination für persönliche LLM-Experimente

3 Kommentare

 
ragingwind 2025-05-02

Für 30b lokal ist das doch ziemlich hervorragend, oder? Qwen2.5-Coder war nicht so toll, aber das hier scheint einen Versuch wert zu sein.

 
GN⁺ 2025-05-02
Hacker-News-Kommentare
  • Ich nutze das Modell Qwen3-30B-A3B lokal und bin sehr beeindruckt. Für Leute, die auf GPT-4 gewartet haben, könnte es eine Alternative sein. Auf einem M3 Max erreiche ich 70 tok/s, was es sehr angenehm nutzbar macht

    • Besonders beeindruckend ist, dass das 0.6B-Modell selbst unter den Sub-1B-Modellen für weniger wichtige Aufgaben nützlich eingesetzt werden kann
    • Insgesamt sehr beeindruckend, und ich evaluiere gerade, wie es sich in mein aktuelles Setup integrieren lässt
  • qwen3 auszuführen und einen ls-Tool-Call zu machen, ist kein "Vibe Coding". Das wirkt eher wie Werbung für LocalForge

    • Für tatsächlich autonome Aufgaben, zum Beispiel mehrere Dateien zu lesen, Verzeichnisse zu durchsuchen und herauszufinden, wo Änderungen vorgenommen werden müssen, scheint es in der Praxis nicht gut zu funktionieren
  • Ich möchte MLX und MLX-LM ausdrücklich loben. Ich nutze sie derzeit, um Gemma-3-Modelle lokal feinzujustieren, und die von Apple-Entwicklern erstellten Bibliotheken und Tools sind gut aufgebaut

  • Ich habe Qwen3 mit einem einfachen Prompt zufällig in eine Schleife gebracht

    • Verwendeter Prompt: "Erstelle einen Python-Dekorator, der einen Trie für MQTT-Topic-Routing verwendet"
    • phi4-reasoning funktioniert, aber der Code scheint Bugs zu haben
    • phi4-mini-reasoning wirkt verwirrt
    • qwen3:30b gerät in eine Schleife und vergisst den Dekorator
    • mistral-small versteht sofort den Kern, und der Code sieht korrekt aus
    • Ich nutze regelmäßig Copilot-Modelle, und Claude 3.7 sowie Gemini geben mit Tests nutzbaren Code aus. Lokale Modelle scheinen aber noch nicht auf diesem Niveau zu sein
  • Kennt jemand ein Setup, bei dem lokale LLMs mit MCP zusammenarbeiten können, um Aufgaben kooperativ auszuführen, Kontext zu komprimieren oder mit einem Cloud-Agenten zusammenzuarbeiten?

    • Es wirkt albern, wenn eine neue M3-Box nur die UI rendert und ein Cloud-LLM die Codebasis refaktoriert. Es scheint, als müssten sie die Arbeit eigentlich untereinander koordinieren können
  • Ich würde gern ein kurzes Tutorial dazu sehen, wie man lokal einen echten autonomen Agenten startet und einfache Aufgaben ausführen lässt

    • Ich suche noch nach der richtigen MLX-Konfiguration oder einer passenden Modellversion, aber das Framework dieses Ansatzes ist solide
  • Ich freue mich, LocalForge entdeckt zu haben. Ich habe eine Frage zu LocalForge: Kann man zwei Agenten kombinieren, sodass ein Bild an einen multimodalen Agenten weitergegeben wird, der HTML/CSS liefert, und ein anderer Agent dann den restlichen Code schreibt?

    • Im Beitrag werden Gemma3 (multimodal) und Qwen3 (nicht multimodal) erwähnt. Lässt sich das wie oben beschrieben verwenden?
    • Ich frage mich, woran LocalForge erkennt, an welchen Agenten ein Prompt weitergeleitet werden soll
  • Sehr beeindruckend. Es muss nicht so gut sein wie kostenpflichtige Token-Modelle

    • Ich habe zum Beispiel im letzten Monat mindestens 300 $ für Vibe Coding ausgegeben. Das liegt daran, dass ich wissen möchte, welche Tools konkurrieren, und weil ich die Implementierung eines Side Projects abgeschlossen hatte und sie in einer anderen Programmiersprache neu schreiben wollte
    • Selbst wenn ich hier ein wenig kürzertrete, könnte sich ein generalüberholter Nvidia-Laptop innerhalb eines Jahres amortisieren. Enttäuschend ist, dass Ollama den gesamten Ablauf noch nicht abdeckt. Das müsste mit einem einzigen Befehl möglich sein
  • Sieht gut aus. Ich habe nach einer lokal-first KI-unterstützten IDE gesucht, die mit Googles Gemma 3 27B funktioniert

    • Ich finde, es sollte offengelegt werden, dass LocalForge das eigene Projekt ist
  • Es wird jetzt wirklich interessant, Modelle lokal auszuführen. Besonders die 30B-A3B-Version scheint eine vielversprechende Richtung zu sein. Mit 16 GB VRAM ist sie noch nicht ganz erreichbar, aber ziemlich nah dran

    • Ich freue mich auf neue Nvidia-RTX-Karten mit 24/32 GB VRAM. In ein paar Jahren könnten wir das Niveau von GPT-4 erreichen. Das wäre für viele Aufgaben nützlich