- OpenCoder ist ein Open-Source-Code-LLM mit Basis- und Chat-Modellen in den Größen 1.5B und 8B und unterstützt Englisch und Chinesisch
- Es wurde mit Daten aus 2,5 Billionen Tokens trainiert, davon 90 % Rohcode und 10 % codebezogene Webdaten
- Erreicht die Leistung führender Code-LLMs und stellt Modellgewichte, Inferenz-Code, reproduzierbare Trainingsdaten, Datenverarbeitungs-Pipelines, experimentelle Ablationsergebnisse und detaillierte Trainingsprotokolle bereit
- Eine offene Plattform, die Forschende dabei unterstützt, Code-AI weiterzuentwickeln und Innovationen voranzutreiben
- Merkmale von OpenCoder
- Ein vollständig Open-Source-Code-LLM, das auf einer transparenten Datenverarbeitungs-Pipeline und reproduzierbaren Datensätzen basiert und in mehreren Bewertungs-Benchmarks für Code-LLMs Spitzenleistung erzielt
- RefineCode: ein hochwertiger, reproduzierbarer Code-Pretraining-Korpus mit 960 Milliarden Tokens aus 607 Programmiersprachen
- Aussagekräftige Ablation-Studien: umfasst mehrere Ablationsexperimente, die aufschlussreiche Einblicke in verschiedene Designentscheidungen und Trainingsstrategien für Code-LLMs liefern
- Veröffentlichte Ressourcen: finale Modellgewichte, vollständige Datenverarbeitungs-Pipeline, effiziente Evaluierungs-Pipeline, reproduzierbarer Pretraining-Datensatz, groß angelegter SFT-Datensatz und Zwischen-Checkpoints
1 Kommentare
Hacker-News-Kommentare
Durch die Offenlegung nicht nur der Modellgewichte und des Inferenz-Codes, sondern auch reproduzierbarer Trainingsdaten, Datenverarbeitungs-Pipelines, experimenteller Ergebnisse und Trainingsprotokolle wird ein Beitrag zur wissenschaftlichen Forschung geleistet.
In Tests gab es viele Halluzinationen, und die Leistung war schlechter als bei allgemeinen Modellen wie Qwen 2.5 oder Mistral-Nemo.
Link zur Homepage des arXiv-Papers: https://opencoder-llm.github.io/
Der HumanEval-Score von Qwen2.5-Coder-7B ist 61.6, aber in Tabelle 1 wird er mit 88.4 angegeben, was verwirrend war.
Wegen Forks und Copy-and-Paste in der Codebasis sind 75 % der Dateien vollständig dupliziert.
Gibt es Leute, die mit Metadaten zum Kompilieren und Ausführen trainieren, etwa Profiling-Daten?
Interessantes Paper, aber das Modell scheint in einigen Sprachen, darunter Ruby, nicht besser zu sein als Qwen2.5-Coder.
Es wird gefragt, welche Hardware erforderlich ist, um dieses Modell auszuführen.
Die Plumbing ist wichtig.
Gut.