OpenCoder: Ein offenes Kochbuch für erstklassige Code-LLMs

(opencoder-llm.github.io)

12 Punkte von GN⁺ 2024-11-10 | 1 Kommentare | Auf WhatsApp teilen

OpenCoder ist ein Open-Source-Code-LLM mit Basis- und Chat-Modellen in den Größen 1.5B und 8B und unterstützt Englisch und Chinesisch
- Es wurde mit Daten aus 2,5 Billionen Tokens trainiert, davon 90 % Rohcode und 10 % codebezogene Webdaten
- Erreicht die Leistung führender Code-LLMs und stellt Modellgewichte, Inferenz-Code, reproduzierbare Trainingsdaten, Datenverarbeitungs-Pipelines, experimentelle Ablationsergebnisse und detaillierte Trainingsprotokolle bereit
- Eine offene Plattform, die Forschende dabei unterstützt, Code-AI weiterzuentwickeln und Innovationen voranzutreiben
Merkmale von OpenCoder
- Ein vollständig Open-Source-Code-LLM, das auf einer transparenten Datenverarbeitungs-Pipeline und reproduzierbaren Datensätzen basiert und in mehreren Bewertungs-Benchmarks für Code-LLMs Spitzenleistung erzielt
- RefineCode: ein hochwertiger, reproduzierbarer Code-Pretraining-Korpus mit 960 Milliarden Tokens aus 607 Programmiersprachen
- Aussagekräftige Ablation-Studien: umfasst mehrere Ablationsexperimente, die aufschlussreiche Einblicke in verschiedene Designentscheidungen und Trainingsstrategien für Code-LLMs liefern
- Veröffentlichte Ressourcen: finale Modellgewichte, vollständige Datenverarbeitungs-Pipeline, effiziente Evaluierungs-Pipeline, reproduzierbarer Pretraining-Datensatz, groß angelegter SFT-Datensatz und Zwischen-Checkpoints

1 Kommentare

GN⁺ 2024-11-10

Durch die Offenlegung nicht nur der Modellgewichte und des Inferenz-Codes, sondern auch reproduzierbarer Trainingsdaten, Datenverarbeitungs-Pipelines, experimenteller Ergebnisse und Trainingsprotokolle wird ein Beitrag zur wissenschaftlichen Forschung geleistet.
- Es wird betont, dass solche Arbeiten allen zugutekommen, unabhängig von der Leistung des Modells.
In Tests gab es viele Halluzinationen, und die Leistung war schlechter als bei allgemeinen Modellen wie Qwen 2.5 oder Mistral-Nemo.
Link zur Homepage des arXiv-Papers: https://opencoder-llm.github.io/
Der HumanEval-Score von Qwen2.5-Coder-7B ist 61.6, aber in Tabelle 1 wird er mit 88.4 angegeben, was verwirrend war.
- Das liegt daran, dass es sich um zwei unterschiedliche Modelle handelt (Qwen2.5-Coder-7B-Base ist 61.6, Qwen2.5-Coder-7B-Instruct ist 88.4).
Wegen Forks und Copy-and-Paste in der Codebasis sind 75 % der Dateien vollständig dupliziert.
- Da auf Dateiebene gehasht wird, ist nicht sicher, ob ganze Dateien unverändert kopiert wurden.
Gibt es Leute, die mit Metadaten zum Kompilieren und Ausführen trainieren, etwa Profiling-Daten?
- Es wird gefragt, ob solche Einbeziehungen das Modell zu effizienterem Code hinlenken könnten.
Interessantes Paper, aber das Modell scheint in einigen Sprachen, darunter Ruby, nicht besser zu sein als Qwen2.5-Coder.
Es wird gefragt, welche Hardware erforderlich ist, um dieses Modell auszuführen.
Die Plumbing ist wichtig.
Gut.