- Vor einigen Tagen stellte jemand Reflection 70B vor, angeblich eine feinabgestimmte Version von Llama 3.1 70B, zusammen mit überraschenden Benchmark-Ergebnissen
- Die Veröffentlichung der Weights war ein Chaos. Es wurde behauptet, es sei ein Fine-Tuning für 3.1, veröffentlicht wurde aber ein LoRA für 3.0
- Beim Ausführen mit den veröffentlichten Weights blieben die Bewertungen zunächst hinter den Erwartungen zurück
- Bei Nutzung des gehosteten Endpunkts begannen die Bewertungen dann auf SOTA-Niveau auszufallen
- Leute fanden eine clevere Methode heraus, um zu überprüfen, welches Modell auf dem Endpunkt lief
- Modellspezifische Tokens und modellspezifische Zensur wurden verwendet
- Den Funden zufolge wurde behauptet, dass es nicht ihr selbst feinabgestimmtes Modell war, sondern ein Wrapper um Sonnet 3.5
- Nachdem auf Twitter gepostet wurde, dass es sich offenbar um Sonnet handelte, änderte sich der Inhalt
- Danach behauptete ein anderer Nutzer, mit einer ähnlichen Methode Belege dafür gefunden zu haben, dass das gehostete Modell auf GPT 4o umgestellt wurde
- Die Ergebnisse sind gemischt und inkonsistent, daher ist nicht klar, was wahr und was falsch ist
- Release-Tweet des ursprünglichen Erstellers: https://twitter.com/mattshumer_/status/1831767014341538166
- Tweet-Thread, der per Prompting nachverfolgt, dass sich ständig etwas verändert: https://x.com/RealJosephus/status/1832904398831280448
1 Kommentare
Hacker-News-Kommentare
Es wurde angekündigt, dass das Modell Llama 3.1 70B eine hervorragende Leistung zeigt, doch es traten mehrere Probleme auf
Es wird argumentiert, dass dieser Beitrag mehr Aufmerksamkeit erhalten sollte
Menschen tun vieles für Ruhm; man fragt sich, was Schumers eigentliches Endziel ist
Der ursprüngliche Tweet des Autors (wird bald gelöscht)
Es gibt einen Witz über eine Person, deren Name sich auf "odd" reimt und mit dem dritten Buchstaben beginnt (C*** Debussy)
Man fragt sich, ob es eine "Bestätigung" aus einer vertrauenswürdigen Quelle gab; Reddit-Posts, Twitter-Threads und Screenshots mit unklarer Herkunft sind schwer zu vertrauen