3 Punkte von GN⁺ 2024-09-10 | 1 Kommentare | Auf WhatsApp teilen
  • Vor einigen Tagen stellte jemand Reflection 70B vor, angeblich eine feinabgestimmte Version von Llama 3.1 70B, zusammen mit überraschenden Benchmark-Ergebnissen
    • Die Veröffentlichung der Weights war ein Chaos. Es wurde behauptet, es sei ein Fine-Tuning für 3.1, veröffentlicht wurde aber ein LoRA für 3.0
    • Beim Ausführen mit den veröffentlichten Weights blieben die Bewertungen zunächst hinter den Erwartungen zurück
    • Bei Nutzung des gehosteten Endpunkts begannen die Bewertungen dann auf SOTA-Niveau auszufallen
  • Leute fanden eine clevere Methode heraus, um zu überprüfen, welches Modell auf dem Endpunkt lief
    • Modellspezifische Tokens und modellspezifische Zensur wurden verwendet
    • Den Funden zufolge wurde behauptet, dass es nicht ihr selbst feinabgestimmtes Modell war, sondern ein Wrapper um Sonnet 3.5
    • Nachdem auf Twitter gepostet wurde, dass es sich offenbar um Sonnet handelte, änderte sich der Inhalt
    • Danach behauptete ein anderer Nutzer, mit einer ähnlichen Methode Belege dafür gefunden zu haben, dass das gehostete Modell auf GPT 4o umgestellt wurde
  • Die Ergebnisse sind gemischt und inkonsistent, daher ist nicht klar, was wahr und was falsch ist
  • Release-Tweet des ursprünglichen Erstellers: https://twitter.com/mattshumer_/status/1831767014341538166
  • Tweet-Thread, der per Prompting nachverfolgt, dass sich ständig etwas verändert: https://x.com/RealJosephus/status/1832904398831280448

1 Kommentare

 
GN⁺ 2024-09-10
Hacker-News-Kommentare
  • Es wurde angekündigt, dass das Modell Llama 3.1 70B eine hervorragende Leistung zeigt, doch es traten mehrere Probleme auf

    • Die Gewichte von Lora for Llama 3.0 wurden fehlerhaft veröffentlicht
    • Die erste Evaluierung blieb hinter den Erwartungen zurück
    • Auf dem gehosteten Endpunkt wurde SOTA-Leistung gezeigt
    • Es wurden verschiedene Methoden verwendet, um zu überprüfen, welches Modell tatsächlich dahintersteckt
    • Es stellte sich heraus, dass das Modell Sonnet 3.5 verwendet wurde
    • Später wurden Hinweise entdeckt, dass auf das Modell GPT 4o umgestellt wurde
    • Dadurch entstanden Verwirrung und Zeitverschwendung
  • Es wird argumentiert, dass dieser Beitrag mehr Aufmerksamkeit erhalten sollte

    • Der Ruf einer in der KI-Branche als bedeutend bekannten Person wurde beschädigt
    • Es gibt Belege wie das Filtern von "claude", Tag-Fehler und Hinweise darauf, dass das Modell selbst einräumt, Claude zu sein
    • Am eindeutigsten ist das Verhalten des Modells, auf Arabisch auf Fragen zu antworten, obwohl diese Sprache von der Llama-Version nicht unterstützt wird
  • Menschen tun vieles für Ruhm; man fragt sich, was Schumers eigentliches Endziel ist

  • Der ursprüngliche Tweet des Autors (wird bald gelöscht)

    Ich freue mich, Reflection 70B vorzustellen, das beste Open-Source-Modell der Welt.  
    Es wurde mit Reflection-Tuning trainiert, sodass das LLM seine eigenen Fehler korrigieren kann.  
    Nächste Woche soll 405B erscheinen, und es wird voraussichtlich das beste Modell der Welt werden.  
    
  • Es gibt einen Witz über eine Person, deren Name sich auf "odd" reimt und mit dem dritten Buchstaben beginnt (C*** Debussy)

  • Man fragt sich, ob es eine "Bestätigung" aus einer vertrauenswürdigen Quelle gab; Reddit-Posts, Twitter-Threads und Screenshots mit unklarer Herkunft sind schwer zu vertrauen