12 Punkte von GN⁺ 2024-11-10 | 1 Kommentare | Auf WhatsApp teilen
  • OpenCoder ist ein Open-Source-Code-LLM mit Basis- und Chat-Modellen in den Größen 1.5B und 8B und unterstützt Englisch und Chinesisch
    • Es wurde mit Daten aus 2,5 Billionen Tokens trainiert, davon 90 % Rohcode und 10 % codebezogene Webdaten
    • Erreicht die Leistung führender Code-LLMs und stellt Modellgewichte, Inferenz-Code, reproduzierbare Trainingsdaten, Datenverarbeitungs-Pipelines, experimentelle Ablationsergebnisse und detaillierte Trainingsprotokolle bereit
    • Eine offene Plattform, die Forschende dabei unterstützt, Code-AI weiterzuentwickeln und Innovationen voranzutreiben
  • Merkmale von OpenCoder
    • Ein vollständig Open-Source-Code-LLM, das auf einer transparenten Datenverarbeitungs-Pipeline und reproduzierbaren Datensätzen basiert und in mehreren Bewertungs-Benchmarks für Code-LLMs Spitzenleistung erzielt
    • RefineCode: ein hochwertiger, reproduzierbarer Code-Pretraining-Korpus mit 960 Milliarden Tokens aus 607 Programmiersprachen
    • Aussagekräftige Ablation-Studien: umfasst mehrere Ablationsexperimente, die aufschlussreiche Einblicke in verschiedene Designentscheidungen und Trainingsstrategien für Code-LLMs liefern
    • Veröffentlichte Ressourcen: finale Modellgewichte, vollständige Datenverarbeitungs-Pipeline, effiziente Evaluierungs-Pipeline, reproduzierbarer Pretraining-Datensatz, groß angelegter SFT-Datensatz und Zwischen-Checkpoints

1 Kommentare

 
GN⁺ 2024-11-10
Hacker-News-Kommentare
  • Durch die Offenlegung nicht nur der Modellgewichte und des Inferenz-Codes, sondern auch reproduzierbarer Trainingsdaten, Datenverarbeitungs-Pipelines, experimenteller Ergebnisse und Trainingsprotokolle wird ein Beitrag zur wissenschaftlichen Forschung geleistet.

    • Es wird betont, dass solche Arbeiten allen zugutekommen, unabhängig von der Leistung des Modells.
  • In Tests gab es viele Halluzinationen, und die Leistung war schlechter als bei allgemeinen Modellen wie Qwen 2.5 oder Mistral-Nemo.

  • Link zur Homepage des arXiv-Papers: https://opencoder-llm.github.io/

  • Der HumanEval-Score von Qwen2.5-Coder-7B ist 61.6, aber in Tabelle 1 wird er mit 88.4 angegeben, was verwirrend war.

    • Das liegt daran, dass es sich um zwei unterschiedliche Modelle handelt (Qwen2.5-Coder-7B-Base ist 61.6, Qwen2.5-Coder-7B-Instruct ist 88.4).
  • Wegen Forks und Copy-and-Paste in der Codebasis sind 75 % der Dateien vollständig dupliziert.

    • Da auf Dateiebene gehasht wird, ist nicht sicher, ob ganze Dateien unverändert kopiert wurden.
  • Gibt es Leute, die mit Metadaten zum Kompilieren und Ausführen trainieren, etwa Profiling-Daten?

    • Es wird gefragt, ob solche Einbeziehungen das Modell zu effizienterem Code hinlenken könnten.
  • Interessantes Paper, aber das Modell scheint in einigen Sprachen, darunter Ruby, nicht besser zu sein als Qwen2.5-Coder.

  • Es wird gefragt, welche Hardware erforderlich ist, um dieses Modell auszuführen.

  • Die Plumbing ist wichtig.

  • Gut.