- CodeLlama-34B und CodeLlama-34B-Python wurden mit Phinds internem Datensatz feinabgestimmt und erreichten bei HumanEval jeweils 67,6 % bzw. 69,5 % pass@1, womit sie GPT-4 mit 67 % übertrafen
- Die kürzlich veröffentlichten CodeLlama-Modelle zeigten bei HumanEval bereits beeindruckende Leistung: CodeLlama-34B erreichte 48,8 % pass@1, CodeLlama-34B-Python 53,7 % pass@1
- Beide Modelle wurden auf einem proprietären Datensatz mit etwa 80k hochwertigen Programmieraufgaben und Lösungen feinabgestimmt, der sich strukturell von HumanEval unterscheidet, da er statt Code-Vervollständigungsbeispielen aus Anweisung-Antwort-Paaren besteht
- Die Modelle wurden mit DeepSpeed ZeRO 3 und Flash Attention 2 über zwei Epochen auf insgesamt 160k Beispielen trainiert; das erfolgte in drei Stunden mit 32 A100-80GB-GPUs und einer Sequenzlänge von 4096 Tokens
- OpenAIs Methodik zur Dekontamination wurde auf den Datensatz angewendet, um valide Ergebnisse sicherzustellen; es wurden keine kontaminierten Beispiele gefunden. Die Methodik zieht für jedes Evaluierungsbeispiel zufällig drei Teilstrings mit jeweils 50 Zeichen heran oder verwendet das gesamte Beispiel, falls dieses weniger als 50 Zeichen umfasst, und identifiziert eine Übereinstimmung, wenn einer der gezogenen Teilstrings ein Teilstring eines verarbeiteten Trainingsbeispiels ist.
- Die feinabgestimmten Modelle erreichten bei HumanEval pass@1-Werte von 67,6 % für Phind-CodeLlama-34B-v1 und 69,5 % für Phind-CodeLlama-34B-Python-v1
- Beide Modelle wurden auf Huggingface veröffentlicht, um Überprüfbarkeit sicherzustellen und die Open-Source-Community zu unterstützen; eine unabhängige Verifizierung der Ergebnisse wird empfohlen
1 Kommentare
Ein HN-Beitrag.
https://news.ycombinator.com/item?id=37267597