A.T.L.A.S – Eine 500-Dollar-GPU übertrifft Claude Sonnet in Coding-Benchmarks

(github.com/itigges22)

12 Punkte von GN⁺ 2026-03-28 | 1 Kommentare | Auf WhatsApp teilen

A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) ist ein selbst gehostetes KI-System, das mit einer einzelnen Consumer-GPU Code-Generierungsleistung auf dem Niveau großer Modelle erreicht
Laut LiveCodeBench v5 erzielte es 74,6 % pass@1-v(k=3) und übertraf damit Claude 4.5 Sonnet (71,4 %); gegenüber der vorherigen Version wurde nahezu eine Verdopplung der Leistung erreicht
Mit einem eingefrorenen 14B-Parameter-Modell (Qwen3-14B-Q4_K_M) wird hohe Leistung durch constraintsbasierte Generierung, eine Schleife aus Selbstvalidierung und Korrektur sowie Geometric-Lens-Kandidatenauswahl erzielt
Es läuft vollständig autonom in einer lokalen Umgebung ohne Cloud oder API-Aufrufe; Kosten fallen nur für Strom an, was im Vergleich zu API-basierten Modellen eine sehr hohe Kosteneffizienz bietet
In einer Umgebung mit RTX 5060 Ti 16GB GPU verarbeitet es 599 Aufgaben in rund 2 Stunden und zeigt, dass sich die Code-Generierungsfähigkeiten großer Modelle auf persönlicher Hardware reproduzieren lassen

Benchmark-Ergebnisse

LiveCodeBench v5: 74,6 % pass@1-v(k=3), 599 Aufgaben
- V3-Pipeline: PlanSearch + self-verified PR-CoT repair
GPQA Diamond: 47,0 %, 198 Aufgaben
SciCode: 14,7 %, 341 Aufgaben
pass@k-v(k=3) ist kein Ergebnis eines einzelnen Versuchs, sondern ein Verfahren, das die Erzeugung von 3 Kandidaten, Lens-Auswahl und bei Fehlschlag wiederholte Korrektur umfasst
Beitrag der einzelnen V3-Stufen (Ablation Study)
- A: Basisversion (ohne V3) → 54,9 %
- B: Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67,3 % (+12,4pp)
- C: Phase 1+2 (Lens routing) → 67,3 % (+0,0pp)
- D: Phase 1+3 (self-verified refinement) → 74,6 % (+7,3pp)
- In Phase 3 wird die interne Validierung mit vom Modell selbst erzeugten Testfällen durchgeführt; echte Referenzantworten werden nicht verwendet
- PR-CoT stellte in Phase 3 36 von 42 Problemen (85,7 %) wieder her

Kosten- und Leistungsvergleich

System	LCB pass@1	Kosten pro Aufgabe	Anmerkung
DeepSeek V3.2 Reasoning	86,2 %	~$0.002	API, einzelner Versuch
GPT-5 (high)	84,6 %	~$0.043	API, einzelner Versuch
ATLAS V3	74,6 %	~$0.004	nur lokaler Stromverbrauch, best-of-3 + repair
Claude 4.5 Sonnet	71,4 %	~$0.066	API, einzelner Versuch
Claude 4 Sonnet	65,5 %	~$0.066	API, einzelner Versuch

Bei ATLAS fallen nur Stromkosten an, keine API-Kosten
Mit einer 165W-GPU dauert die Bearbeitung von 599 Aufgaben etwa 1 Stunde 55 Minuten
Die Latenz ist höher, aber die Kosteneffizienz ist sehr hoch

Funktionsweise

Gesamte Pipeline
- Phase 1: Generate
  - PlanSearch: Extraktion von Constraints und Erzeugung verschiedener Pläne
  - Budget Forcing: Steuerung des Token-Verbrauchs
- Verify-Stufe
  - Geometric Lens (C(x)): Energy Scoring auf Basis selbst erzeugter 5120-dimensionaler Embeddings
  - Sandbox: Ausführung und Verifikation von Code
- Phase 3: Repair
  - Self-Test Generation: Das Modell erzeugt selbst Ein-/Ausgabe-Paare
  - PR-CoT Repair: Code-Korrektur auf Basis von Chain-of-Thought mit mehreren Perspektiven
- Eine einzelne llama-server-Instanz läuft auf K3s und führt gleichzeitig speculative decoding und die Erzeugung eigener Embeddings aus
- Geometric Lens wählt unter den Kandidaten den besten Code aus (87,8 % Genauigkeit bei Aufgaben mit gemischten Ergebnissen)
- Fehlgeschlagene Aufgaben werden zu Phase 3 weitergeleitet, wo Selbsttest-Erzeugung und iterative Korrektur erfolgen

Installation und Ausführung

GitHub-Repository klonen, dann Konfigurationsdatei kopieren und das Installationsskript ausführen
V3-Benchmark mit benchmark/v3_runner.py ausführen
Das detaillierte Installationsverfahren steht in docs/SETUP.md

Hardware und Reproduzierbarkeit

Ressource	Minimum	Testumgebung
GPU-VRAM	16 GB	RTX 5060 Ti 16 GB
System-RAM	14 GB	16 GB
Python	3.10+	3.11
OS	RHEL 9 / Ubuntu 24	RHEL 9 (Proxmox-VM)

Reproduziert in einer Umgebung mit Proxmox-VM + VFIO-GPU-Passthrough
Funktioniert auch auf anderen NVIDIA-GPUs mit mindestens 16 GB VRAM, erfordert aber Anpassungen bei Treibern und VRAM-Einstellungen
Wichtige Tuning-Parameter:
- Anzahl der --parallel-Slots (Standard 2, bei zu wenig VRAM auf 1 reduzieren)
- KV-Cache-Quantisierung (Q4_0)
- Kontextlänge pro Slot (Standard 20480 Token)
- Tests mit CUDA 12.8 abgeschlossen
In V3.1 sind Verbesserungen bei der Portabilität geplant

Roadmap

V3.0 (abgeschlossen, 2026-03-05)
- Basiert auf Qwen3-14B-Q4_K_M, 74,6 % LCB-Leistung
- PlanSearch + BudgetForcing + Geometric Lens + PR-CoT-Pipeline fertiggestellt
Bekannte Einschränkungen
1. LCB-spezifische Optimierung: Für andere Benchmarks wie GPQA und SciCode noch nicht ausreichend optimiert
2. Phase 2 (Lens routing): Geringer Effekt wegen zu kleiner Datensätze (+0,0pp)
3. G(x)-Metriktensor deaktiviert: C(x) ist untrainiert, daher keine sinnvolle geometrische Struktur
4. Single-Thread-Verarbeitung: Keine Parallelisierung von Aufgaben unterstützt
5. SandboxAdapter-stdio-Bug: Funktion zur Eingabetrennung deaktiviert (Fix in V3.1 geplant)
V3.1 (in Arbeit)
- Modellwechsel: Qwen3-14B → Qwen3.5-9B (DeltaNet lineare Attention, 3- bis 4-fache Geschwindigkeitssteigerung)
- Lens-Neutrainierung: Rekalibrierung von C(x) auf Basis von Echtzeit-Feedback
- Neudesign von Phase 2: G(x) neu implementieren oder entfernen, SandboxAdapter-Bug beheben
- Einführung von Parallelverarbeitung: Höhere Verarbeitungsgeschwindigkeit durch parallele Ausführung von Aufgaben
- Erweiterte Benchmark-Suite: Einschließlich Reasoning- und Wissensevaluierung jenseits von Coding
Geplante V3.1-Benchmarks
- Coding: LiveCodeBench v5, SciCode, zusätzliche kontaminationsresistente Datensätze
- Reasoning/Wissen: GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt usw.
- Confidence Router wählt je nach Aufgabenschwierigkeit den Pfad:
  - Einfache Anfragen → schnelles RAG-basiertes Reasoning (~30 Sekunden)
  - Komplexe Coding-Probleme → vollständige Pipeline (~20 Minuten)
- Ziel: 80–90 % LCB pass@1-v(k=3) und höhere Verarbeitungsgeschwindigkeit

Lizenz

A.T.L.A.S Source Available License v1.0

1 Kommentare

GN⁺ 2026-03-28

Hacker-News-Kommentare

Ich erwarte von Agenten keine großen Codeblöcke
Stattdessen sind sie viel nützlicher, wenn es darum geht, Logs zu durchforsten oder mehrere Quelldateien zu analysieren und die Ursache fehlgeschlagener Tests zu erklären
Ich denke, wir brauchen Debugging-Benchmarks, die genau diese Fähigkeiten bewerten. Tests, die Build-Systeme oder CLI-Kompetenz messen, wären gut
- Stimme ich auch zu. Besonders nützlich ist das, wenn man im gesamten Codebestand kleine konsistente Änderungen anwenden muss
  Ich habe zum Beispiel eine ganze App von Hard Delete auf Soft Delete refaktoriert und musste sowohl die Löschlogik als auch die Queries anpassen
  Von Hand wäre das langweilig und fehleranfällig gewesen, deshalb war ich wirklich dankbar, dass der Agent das schnell erledigt hat
- Für solche langfristigen Aufgaben sind SWE Bench Pro oder Terminal Bench 2 geeignet
  SWE Bench Pro ist noch nicht übermäßig optimiert und deshalb vertrauenswürdig
  Normales SWE oder LCB haben dagegen durch den Wettlauf um aufgeblähte Zahlen schon stark an Aussagekraft verloren
- Tests rund um Build-Systeme werden in CompileBench behandelt, dem Benchmark von Quesma
  Zur Transparenz: Ich bin Gründer von Quesma
- Ich mache den ganzen Tag nur umfangreiche Codegenerierung
  Inzwischen schreibe ich kaum noch selbst Code, weder in der Firma noch in Side Projects
  Ich entwickle hauptsächlich Developer-Tools in Rust und TypeScript
- Ich überlasse dem Agenten auch die Einrichtung der Umgebung
  Die Deployments laufen mit kubectl / helm, und wenn Probleme auftreten, debuggt der Agent sie direkt selbst
  Dinge, die früher Stunden gedauert haben, sind plötzlich in kürzester Zeit erledigt, das ist erstaunlich
Ich würde Entwicklern empfehlen, Modelle wie MiniMax oder Kimi einmal in echter Arbeit auszuprobieren
Die Nachteile zeigen sich aber auch schnell — mehr Reasoning-Tokens, langsame Ausgaben, sinkende Qualität usw.
Trotzdem kann man mit gutem Modell-Routing und sauber verwaltetem Reasoning-Budget viel Geld sparen
Wichtig ist auch, App und Prompt zu optimieren, um die Zahl der Output-Tokens zu senken
- Ich bekomme mit Kimi ebenfalls ordentliche Ergebnisse
  Bei schwierigen Aufgaben ist Effizienz aber wichtiger als der reine Tokenpreis
  Der im Link beschriebene Ansatz funktioniert auch bei Sonnet und Opus
  MiniMax oder Qwen kommen da allerdings noch nicht ganz mit
  Entscheidend ist am Ende das Harness-Design, also sauber zu unterscheiden, welches Modell für welche Aufgabe kosteneffizient ist
- Ich nutze keine Modelle unterhalb des SOTA-Niveaus
  Ich habe Opus 4.6 medium ausprobiert und es sofort bereut. Der Qualitätsunterschied ist zu groß
- Wie in diesem Link zu sehen ist, ist MiniMax bei Nicht-Coding-Aufgaben schwach
  aibenchy-Vergleichsergebnis
- Ich nutze MiniMax jeden Tag zum Coden
  Der Tokenverbrauch ist mir egal, im 10-Euro-Monatstarif sind alle 5 Stunden 1500 Anfragen möglich
  In der Praxis ist es nicht langsamer als Opus oder Sonnet
  In Benchmarks sehen die Anthropic-Modelle besser aus, aber bei realen Aufgaben ist der Unterschied kaum spürbar
  Wenn MiniMax nicht weiterkommt, wechsle ich zu Opus und gehe danach wieder zu MiniMax zurück
  Opus verbrennt das Budget schnell, MiniMax ist dagegen praktisch unbegrenzt
- Kimi ist in letzter Zeit mein bevorzugtes Modell fürs Debugging
  Es findet Probleme schneller als Claude oder GPT
  Allerdings hat es ernste Probleme mit der Kontextkonsistenz — bei Umschreibungen von Code reichen kleine Abweichungen, um alles kaputtzumachen
Im Moment ist es ein endloses Rennen im Preiswettbewerb
DeepSeek schlägt alle Modelle bei Single-Run-Betrachtung und kostet nur etwa die Hälfte des lokalen Strompreises

DeepSeek V3.2 Reasoning 86.2% ~$0.002 API, single-shot
ATLAS V3 (pass@1-v(k=3)) 74.6% ~$0.004 nur lokaler Strom, best-of-3 + Repair-Pipeline
- Wenn ich es lokal laufen lassen kann, würde ich 0,004 Dollar Stromkosten durchaus in Kauf nehmen
- Aber auf Fragen wie zu den Tian’anmen-Protesten von 1989 antwortet es immer noch nicht…
- Ich habe mehrere Open Models getestet, aber nur DeepSeek 3.2 ist wirklich auf SOTA-Niveau
- Man kann diesen Ansatz auch auf DeepSeek anwenden
  Man erzeugt mehrere Lösungen, lässt ein kleines Modell vielversprechende Kandidaten auswählen und iteriert dann mit Tests und Feedback weiter
  Das konvergiert schrittweise fast wie ein genetischer Algorithmus
- Kann jemand erklären, was mit „billiger als Stromkosten“ gemeint ist?
Kleine Modelle sind für Tests übermäßig feinabgestimmt und liefern in realen Umgebungen miserable Leistung
Ich bin immer skeptisch
Benchmarks werden zwar bestanden, aber in der Praxis fehlt oft die Allgemeingültigkeit
Trotzdem ist der Versuch an sich interessant, Modelle zu verschlanken
- Das hängt stark von Sprache und Bereich ab
  In der Systemprogrammierung (C++, Rust) gibt es weiterhin einen großen Abstand zum Niveau von Sonnet 4.5
  Open Models verbringen zu viel Zeit damit, Syntaxfehler zu beheben, und verlieren dabei oft die logische Konsistenz
  Ich habe zwar genug lokale GPUs, mache mir aber auch Sorgen über Lizenzprobleme bei Cloud-Modellen
- Der Ansatz von ATLAS ist ziemlich clever
  Es erzeugt mehrere Lösungen und berechnet für jeden Code einen Embedding-Fingerprint, um die Korrektheit vorherzusagen
  Ein kleines neuronales Netz namens Cost Field bewertet das und wählt den Code mit der höchsten Erfolgswahrscheinlichkeit aus
  Dadurch wird die Testzeit verkürzt, und trotzdem wird mit 88 % Genauigkeit die richtige Antwort ausgewählt
- Wenn man ein Modell verkleinert, muss jedes Neuron mehrere Rollen übernehmen, wodurch die Generalisierungsfähigkeit leidet
  Ein großes Modell kann strukturell sogar einfacher sein
Während ich das gelesen habe, ist der GPU-Preis schon auf $1000 gestiegen
Dieses von KI geschriebene Projekt fährt seinen eigenen Benchmark auf eine Art, die sich vollständig von LiveCodeBench unterscheidet
Im README steht ausdrücklich, dass der ATLAS-Score auf den Ergebnissen der V3-Pipeline (best-of-3 + Lens + iterative repair) über 599 LCB-Aufgaben basiert
Die Scores der Vergleichsmodelle beruhen dagegen auf Single-Run-Werten (pass@1), also ist der Vergleich unfair
Auch Sonnet oder GPT5.4 würden bei gleichem Testverfahren höhere Werte erzielen
Im README gibt es viele Strukturen, die tatsächlich gar nicht verwendet werden, was die Schlampigkeit von automatisch erzeugtem KI-Code zeigt
Ich frage mich, ob solche Benchmarks nur für problemspezifische Optimierung wirksam sind
Am Ende werden wir wohl lernen, dass es eine Grenze der nicht komprimierbaren Allgemeinheit gibt
Der Ausdruck „Geometric Lens routing“ klingt extrem seltsam
Es wirkt einfach wie ein Begriff, den GPT erfunden hat
Ich bin zwar skeptisch, aber solche Open-Model-Experimente begrüße ich wirklich
Wenn man Modelle selbst auf einem besseren Mittelklasse-PC lokal ausführen kann, wäre das ein großer Fortschritt

A.T.L.A.S – Eine 500-Dollar-GPU übertrifft Claude Sonnet in Coding-Benchmarks

Benchmark-Ergebnisse

Beitrag der einzelnen V3-Stufen (Ablation Study)

Kosten- und Leistungsvergleich

Funktionsweise

Gesamte Pipeline

Installation und Ausführung

Hardware und Reproduzierbarkeit

Roadmap

V3.0 (abgeschlossen, 2026-03-05)

Bekannte Einschränkungen

V3.1 (in Arbeit)

Geplante V3.1-Benchmarks

Lizenz

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare