Die offizielle API von Reflection 70B war ein Wrapper für Claude Sonnet 3.5

Vor einigen Tagen stellte jemand Reflection 70B vor, angeblich eine feinabgestimmte Version von Llama 3.1 70B, zusammen mit überraschenden Benchmark-Ergebnissen
- Die Veröffentlichung der Weights war ein Chaos. Es wurde behauptet, es sei ein Fine-Tuning für 3.1, veröffentlicht wurde aber ein LoRA für 3.0
- Beim Ausführen mit den veröffentlichten Weights blieben die Bewertungen zunächst hinter den Erwartungen zurück
- Bei Nutzung des gehosteten Endpunkts begannen die Bewertungen dann auf SOTA-Niveau auszufallen
Leute fanden eine clevere Methode heraus, um zu überprüfen, welches Modell auf dem Endpunkt lief
- Modellspezifische Tokens und modellspezifische Zensur wurden verwendet
- Den Funden zufolge wurde behauptet, dass es nicht ihr selbst feinabgestimmtes Modell war, sondern ein Wrapper um Sonnet 3.5
- Nachdem auf Twitter gepostet wurde, dass es sich offenbar um Sonnet handelte, änderte sich der Inhalt
- Danach behauptete ein anderer Nutzer, mit einer ähnlichen Methode Belege dafür gefunden zu haben, dass das gehostete Modell auf GPT 4o umgestellt wurde
Die Ergebnisse sind gemischt und inkonsistent, daher ist nicht klar, was wahr und was falsch ist
Release-Tweet des ursprünglichen Erstellers: https://twitter.com/mattshumer_/status/1831767014341538166
Tweet-Thread, der per Prompting nachverfolgt, dass sich ständig etwas verändert: https://x.com/RealJosephus/status/1832904398831280448

1 Kommentare

GN⁺ 2024-09-10

Hacker-News-Kommentare

Es wurde angekündigt, dass das Modell Llama 3.1 70B eine hervorragende Leistung zeigt, doch es traten mehrere Probleme auf
- Die Gewichte von Lora for Llama 3.0 wurden fehlerhaft veröffentlicht
- Die erste Evaluierung blieb hinter den Erwartungen zurück
- Auf dem gehosteten Endpunkt wurde SOTA-Leistung gezeigt
- Es wurden verschiedene Methoden verwendet, um zu überprüfen, welches Modell tatsächlich dahintersteckt
- Es stellte sich heraus, dass das Modell Sonnet 3.5 verwendet wurde
- Später wurden Hinweise entdeckt, dass auf das Modell GPT 4o umgestellt wurde
- Dadurch entstanden Verwirrung und Zeitverschwendung
Es wird argumentiert, dass dieser Beitrag mehr Aufmerksamkeit erhalten sollte
- Der Ruf einer in der KI-Branche als bedeutend bekannten Person wurde beschädigt
- Es gibt Belege wie das Filtern von "claude", Tag-Fehler und Hinweise darauf, dass das Modell selbst einräumt, Claude zu sein
- Am eindeutigsten ist das Verhalten des Modells, auf Arabisch auf Fragen zu antworten, obwohl diese Sprache von der Llama-Version nicht unterstützt wird
Menschen tun vieles für Ruhm; man fragt sich, was Schumers eigentliches Endziel ist

Der ursprüngliche Tweet des Autors (wird bald gelöscht)

Ich freue mich, Reflection 70B vorzustellen, das beste Open-Source-Modell der Welt.  
Es wurde mit Reflection-Tuning trainiert, sodass das LLM seine eigenen Fehler korrigieren kann.  
Nächste Woche soll 405B erscheinen, und es wird voraussichtlich das beste Modell der Welt werden.

Es gibt einen Witz über eine Person, deren Name sich auf "odd" reimt und mit dem dritten Buchstaben beginnt (C*** Debussy)
Man fragt sich, ob es eine "Bestätigung" aus einer vertrauenswürdigen Quelle gab; Reddit-Posts, Twitter-Threads und Screenshots mit unklarer Herkunft sind schwer zu vertrauen

Die offizielle API von Reflection 70B war ein Wrapper für Claude Sonnet 3.5

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare