- Ein auf Coding spezialisiertes offenes Code-LLM, das durch mehrstufiges code-flow-Lernen nicht statischen Code, sondern Veränderungen in Repositories und den Entwicklungsprozess lernt
- Stärkt langfristiges Schlussfolgern und die Leistung bei Agentenaufgaben durch eine evolutionäre Lernpipeline aus Pretraining, Mid-Training und Post-Training
- Sichert sich durch die Einspeisung von Reasoning-Daten und Agenten-Trajektorien in 32K- und 128K-Kontexten die Fähigkeit, komplexe Multi-File- und Repository-Probleme zu lösen
- Schlägt mit der LoopCoder-Architektur mit wiederholender Struktur ein praktisches Design vor, das die Bereitstellungseffizienz im Verhältnis zur Modellgröße verbessert
- Erreicht auf SWE-Bench, LiveCodeBench, Terminal-Bench und weiteren Benchmarks mit einem Open-Weights-Modell eine mit kommerziellen Modellen konkurrenzfähige Leistung
Überblick
- IQuest-Coder-V1 ist eine Familie großer, ausschließlich auf Code ausgelegter Sprachmodelle mit 7B, 14B, 40B und 40B-Loop
- Verwendet das code-flow-Paradigma, bei dem nicht Code-Snapshots, sondern Commits und die Evolution von Repositories als Lernziel dienen
- Führt Leistungsbewertungen in agentischer Softwareentwicklung, Competitive Programming und beim allgemeinen Tool-Einsatz durch
Code-Flow-Lernpipeline
- In der Pretraining-Phase werden allgemeine Daten und große Code-Datensätze gemeinsam trainiert, anschließend wird High-Quality Code Annealing angewendet
- In der Mid-Training-Phase erfolgt eine Kontext-Erweiterung von 32K → 128K sowie das Lernen mit Reasoning-QA-, Agenten-Trajektorien- und repositorybasierten Code-Daten
- In der Post-Training-Phase erfolgt eine Aufspaltung in den Thinking-Pfad (Reasoning-zentriertes RL) und den Instruct-Pfad (Optimierung für allgemeine Assistenz)
Zentrale Forschungsergebnisse
- Experimente bestätigen, dass Repository-Commit-Flow-Daten bessere Signale für die Aufgabenplanung liefern als statische Code-Snapshots
- Eine Struktur, die nach High-Quality Code Annealing im Mid-Training Reasoning- und Agenten-Daten einspeist, sorgt für Stabilität gegenüber Verteilungsverschiebungen
- Im Thinking-Pfad mit Reasoning-zentriertem RL zeigt sich deutlich eine Fähigkeit zur selbstständigen Fehlerkorrektur bei langfristigen Aufgaben
LoopCoder-Architektur
- Einführung einer Loop-Transformer-Struktur, die denselben Parameterblock zweimal wiederholt ausführt
- Kombiniert globale und lokale Attention per Gating, um Verfeinerung des Langstreckenkontexts und Erhalt der Kausalität gleichzeitig zu erreichen
- Ziel ist es, die Recheneffizienz im Verhältnis zur Modellgröße zu verbessern und so Einschränkungen in Deployment-Umgebungen zu adressieren
Datenaufbau und Pretraining-Strategie
- Formalisiert in mehrsprachigem gemischtem Code-Training Synergieeffekte zwischen Sprachen über ein formelbasiertes Scaling Law
- Aufbau von (R_old, Patch, R_new)-Triplet-Daten unter Nutzung von Commits aus dem Bereich von 40–80 % des Repository-Lebenszyklus
- Stärkt die Code-Vervollständigungsfähigkeit mit Fill-in-the-Middle-Techniken auf Datei- und Repository-Ebene
Evaluationsergebnisse
- Erreicht 76,2 auf SWE-Bench Verified und Spitzenleistungen in mehreren Benchmarks wie LiveCodeBench v6, Terminal-Bench und Mind2Web
- Führt eine umfassende Evaluation über Codegenerierung, Reasoning, Editing, Effizienz, Text-to-SQL und Agentenaufgaben hinweg durch
- Zeigt bei einigen Metriken nahezu gleichwertige oder konkurrenzfähige Ergebnisse gegenüber geschlossenen Modellen wie Claude Sonnet 4.5 und GPT-5.1
Sicherheitsbewertung
- In Sicherheits-Benchmarks wie BeaverTails, HarmBench und TrustLLM erzielt das Thinking-Modell hohe Ablehnungsgenauigkeit und ausgewogene Leistung
- Präsentiert Ergebnisse, die darauf hindeuten, dass Reasoning-zentriertes RL auch in Bezug auf Sicherheit positive Effekte hat
Fazit
- Belegt, dass auf Code-Evolutionsflüssen und Agenten-Trajektorien basierendes Lernen wirksam für die Ausbildung autonomer Code-Intelligenz ist
- Zeigt mit der LoopCoder-Struktur eine praktische Richtung für das Design von Code-LLMs unter Berücksichtigung des Performance-Effizienz-Trade-offs auf
- Ziel ist es, durch die Offenlegung aller Trainingsphasen und Checkpoints Open-Code-Intelligence-Forschung und die Entwicklung realer Agentensysteme zu beschleunigen
Noch keine Kommentare.