Mit feinabgestimmtem CodeLlama-34B GPT-4 bei HumanEval schlagen

(phind.com)

2 Punkte von GN⁺ 2023-08-26 | 1 Kommentare | Auf WhatsApp teilen

CodeLlama-34B und CodeLlama-34B-Python wurden mit Phinds internem Datensatz feinabgestimmt und erreichten bei HumanEval jeweils 67,6 % bzw. 69,5 % pass@1, womit sie GPT-4 mit 67 % übertrafen
Die kürzlich veröffentlichten CodeLlama-Modelle zeigten bei HumanEval bereits beeindruckende Leistung: CodeLlama-34B erreichte 48,8 % pass@1, CodeLlama-34B-Python 53,7 % pass@1
Beide Modelle wurden auf einem proprietären Datensatz mit etwa 80k hochwertigen Programmieraufgaben und Lösungen feinabgestimmt, der sich strukturell von HumanEval unterscheidet, da er statt Code-Vervollständigungsbeispielen aus Anweisung-Antwort-Paaren besteht
Die Modelle wurden mit DeepSpeed ZeRO 3 und Flash Attention 2 über zwei Epochen auf insgesamt 160k Beispielen trainiert; das erfolgte in drei Stunden mit 32 A100-80GB-GPUs und einer Sequenzlänge von 4096 Tokens
OpenAIs Methodik zur Dekontamination wurde auf den Datensatz angewendet, um valide Ergebnisse sicherzustellen; es wurden keine kontaminierten Beispiele gefunden. Die Methodik zieht für jedes Evaluierungsbeispiel zufällig drei Teilstrings mit jeweils 50 Zeichen heran oder verwendet das gesamte Beispiel, falls dieses weniger als 50 Zeichen umfasst, und identifiziert eine Übereinstimmung, wenn einer der gezogenen Teilstrings ein Teilstring eines verarbeiteten Trainingsbeispiels ist.
Die feinabgestimmten Modelle erreichten bei HumanEval pass@1-Werte von 67,6 % für Phind-CodeLlama-34B-v1 und 69,5 % für Phind-CodeLlama-34B-Python-v1
Beide Modelle wurden auf Huggingface veröffentlicht, um Überprüfbarkeit sicherzustellen und die Open-Source-Community zu unterstützen; eine unabhängige Verifizierung der Ergebnisse wird empfohlen

1 Kommentare

alstjr7375 2023-08-27

Ein HN-Beitrag.
https://news.ycombinator.com/item?id=37267597

Mit feinabgestimmtem CodeLlama-34B GPT-4 bei HumanEval schlagen

Verwandte Beiträge

1 Kommentare