IQuest-Coder: Neues Open-Source-Code-Modell übertrifft Claude Sonnet 4.5 und GPT 5.1 [pdf]

(github.com/IQuestLab)

2 Punkte von GN⁺ 2026-01-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein auf Coding spezialisiertes offenes Code-LLM, das durch mehrstufiges code-flow-Lernen nicht statischen Code, sondern Veränderungen in Repositories und den Entwicklungsprozess lernt
Stärkt langfristiges Schlussfolgern und die Leistung bei Agentenaufgaben durch eine evolutionäre Lernpipeline aus Pretraining, Mid-Training und Post-Training
Sichert sich durch die Einspeisung von Reasoning-Daten und Agenten-Trajektorien in 32K- und 128K-Kontexten die Fähigkeit, komplexe Multi-File- und Repository-Probleme zu lösen
Schlägt mit der LoopCoder-Architektur mit wiederholender Struktur ein praktisches Design vor, das die Bereitstellungseffizienz im Verhältnis zur Modellgröße verbessert
Erreicht auf SWE-Bench, LiveCodeBench, Terminal-Bench und weiteren Benchmarks mit einem Open-Weights-Modell eine mit kommerziellen Modellen konkurrenzfähige Leistung

Überblick

IQuest-Coder-V1 ist eine Familie großer, ausschließlich auf Code ausgelegter Sprachmodelle mit 7B, 14B, 40B und 40B-Loop
Verwendet das code-flow-Paradigma, bei dem nicht Code-Snapshots, sondern Commits und die Evolution von Repositories als Lernziel dienen
Führt Leistungsbewertungen in agentischer Softwareentwicklung, Competitive Programming und beim allgemeinen Tool-Einsatz durch

In der Pretraining-Phase werden allgemeine Daten und große Code-Datensätze gemeinsam trainiert, anschließend wird High-Quality Code Annealing angewendet
In der Mid-Training-Phase erfolgt eine Kontext-Erweiterung von 32K → 128K sowie das Lernen mit Reasoning-QA-, Agenten-Trajektorien- und repositorybasierten Code-Daten
In der Post-Training-Phase erfolgt eine Aufspaltung in den Thinking-Pfad (Reasoning-zentriertes RL) und den Instruct-Pfad (Optimierung für allgemeine Assistenz)

Experimente bestätigen, dass Repository-Commit-Flow-Daten bessere Signale für die Aufgabenplanung liefern als statische Code-Snapshots
Eine Struktur, die nach High-Quality Code Annealing im Mid-Training Reasoning- und Agenten-Daten einspeist, sorgt für Stabilität gegenüber Verteilungsverschiebungen
Im Thinking-Pfad mit Reasoning-zentriertem RL zeigt sich deutlich eine Fähigkeit zur selbstständigen Fehlerkorrektur bei langfristigen Aufgaben

Einführung einer Loop-Transformer-Struktur, die denselben Parameterblock zweimal wiederholt ausführt
Kombiniert globale und lokale Attention per Gating, um Verfeinerung des Langstreckenkontexts und Erhalt der Kausalität gleichzeitig zu erreichen
Ziel ist es, die Recheneffizienz im Verhältnis zur Modellgröße zu verbessern und so Einschränkungen in Deployment-Umgebungen zu adressieren

Formalisiert in mehrsprachigem gemischtem Code-Training Synergieeffekte zwischen Sprachen über ein formelbasiertes Scaling Law
Aufbau von (R_old, Patch, R_new)-Triplet-Daten unter Nutzung von Commits aus dem Bereich von 40–80 % des Repository-Lebenszyklus
Stärkt die Code-Vervollständigungsfähigkeit mit Fill-in-the-Middle-Techniken auf Datei- und Repository-Ebene

Erreicht 76,2 auf SWE-Bench Verified und Spitzenleistungen in mehreren Benchmarks wie LiveCodeBench v6, Terminal-Bench und Mind2Web
Führt eine umfassende Evaluation über Codegenerierung, Reasoning, Editing, Effizienz, Text-to-SQL und Agentenaufgaben hinweg durch
Zeigt bei einigen Metriken nahezu gleichwertige oder konkurrenzfähige Ergebnisse gegenüber geschlossenen Modellen wie Claude Sonnet 4.5 und GPT-5.1

In Sicherheits-Benchmarks wie BeaverTails, HarmBench und TrustLLM erzielt das Thinking-Modell hohe Ablehnungsgenauigkeit und ausgewogene Leistung
Präsentiert Ergebnisse, die darauf hindeuten, dass Reasoning-zentriertes RL auch in Bezug auf Sicherheit positive Effekte hat

Belegt, dass auf Code-Evolutionsflüssen und Agenten-Trajektorien basierendes Lernen wirksam für die Ausbildung autonomer Code-Intelligenz ist
Zeigt mit der LoopCoder-Struktur eine praktische Richtung für das Design von Code-LLMs unter Berücksichtigung des Performance-Effizienz-Trade-offs auf
Ziel ist es, durch die Offenlegung aller Trainingsphasen und Checkpoints Open-Code-Intelligence-Forschung und die Entwicklung realer Agentensysteme zu beschleunigen