1 Punkte von GN⁺ 2024-12-15 | 1 Kommentare | Auf WhatsApp teilen
  • Byte Latent Transformer (BLT) ist eine neue Architektur für Byte-Level-LLMs und erreicht die gleiche Leistung wie tokenisierungsbasierte Modelle, während Inferenz-Effizienz und Robustheit deutlich verbessert werden
  • Bytes werden als Patches dynamischer Größe kodiert, wobei Patches als zentrale Recheneinheit fungieren
    • Dynamische Patch-Segmentierung: Auf Basis der Entropie des nächsten Bytes werden für komplexere Daten mehr Rechenressourcen zugewiesen
  • Die erste FLOP-kontrollierte Skalierungsstudie für bytebasierte Modelle:
    • Skalierung bis zu 8B (8 Milliarden) Parametern und 4 Billionen (4T) Trainings-Bytes
    • Bestätigung der Möglichkeit, Modelle mit rohen Bytes ohne festes Vokabular zu trainieren

Zentrale Ergebnisse

  1. Effizientes Training und effiziente Inferenz:
    • Wenn Daten gut vorhersagbar sind, werden lange Patches gewählt, um den Rechenaufwand zu senken
    • Das Modell passt Patches dynamisch an die Komplexität an und optimiert so den Ressourceneinsatz
  2. Verbessertes Scaling:
    • Bei festen Inferenzkosten bessere Leistung als tokenisierungsbasierte Modelle
    • Skalierungseffizienz durch gleichzeitige Vergrößerung von Patch-Größe und Modellgröße
  3. Qualitative Leistungsverbesserungen:
    • Bessere Reasoning- und Generalisierungsfähigkeit: qualitative Verbesserungen bei schlussfolgerndem Denken und beim Umgang mit seltenen Daten (long-tail)
    • Überwindet die Grenzen fest vokabularbasierter Ansätze

Bedeutung

  • BLT verarbeitet rohe Bytes ohne Tokenisierung und zeigt dabei die Effizienz des Trainings großer Datenmengen und Modelle
  • Es bietet bessere Leistung im Verhältnis zu den Inferenzkosten und deutet auf das Potenzial der nächsten Generation von Byte-Level-LLMs hin
  • Insbesondere beim Umgang mit komplexen Daten zeigt der dynamische Patch-Ansatz das Potenzial, einen neuen Standard für adaptives Modeling zu setzen

1 Kommentare

 
GN⁺ 2024-12-15
Hacker-News-Kommentare
  • Als BERT in jenem Sommer erschien, arbeitete ich bei einem Startup, das für Klassifizierungsaufgaben ein zeichenbasiertes CNN-Modell verwendete. Die Teammitglieder interessierten sich für Wortvektoren, hielten sie aber wegen der vielen Out-of-Vocabulary-Wörter für einen möglichen Fehlschlag

    • Auch bei „Foundation Models“ waren Out-of-Vocabulary-Wörter ein Problem
    • Mit einem zeichenbasierten Modell erzielten wir ordentliche Ergebnisse, aber es gab die Ansicht, dass es ineffizient sei, ein „Wörterbuch“ im neuronalen Netz zu speichern
    • Ich war überzeugt, dass Ansätze wie Word2Vec scheitern würden, und verließ deshalb ein früheres Projekt
    • Als Byte Pair Encoding eingeführt wurde, sagte ich zum ersten Mal, dass das eine Tokenisierungsmethode sei, die ich unterstützen könne
    • Ich wünschte, man könnte mit Zeichen-Labels arbeiten. Ich habe eine Abneigung gegen Tokenizer
  • Die Hierarchie ist interessant, aber es ist schade, dass es nur zwei Ebenen gibt. Mehr Ebenen zu stapeln könnte eine Forschungsrichtung sein

    • Man muss darauf achten, das FLOP-Budget über die Ebenen hinweg sinnvoll zu verteilen
    • Man muss einen Weg finden, Patches zu größeren Einheiten zu gruppieren
  • Zur Erzeugung von Patches wird ein kleines Modell verwendet, das die Wahrscheinlichkeit des nächsten Zeichens in der Eingabezeichenkette vorhersagt

    • Beispiel: Das nächste Zeichen könnte mit 100 % Wahrscheinlichkeit ein „a“ sein, oder „a“ und „b“ könnten jeweils mit 10 % Wahrscheinlichkeit auftreten
    • Diese Zeichenschätzungen werden zusammengefasst und zu Patches (oder Tokens) gemacht
  • Sampling ist ein schwieriger Teil von LLMs, ermöglicht aber interessante Anwendungen, etwa immer gültiges JSON zu erzwingen oder durch Anpassung der Temperatur unterschiedliche Verteilungen zu erhalten

    • Bei BLT könnte man sich vorstellen, dem Decoder erlaubte/verbotene Bytes als zusätzliche Eingabe zu geben und das Decoding zu wiederholen, bis eine gültige Ausgabe entsteht
  • Es wird gefragt, ob AI auf Binärdateien vortrainiert werden kann

  • Es wird gefragt, ob man die Tokenisierung implizit machen und dem Modell nur Bytes (oder Zeichen) geben könnte

  • Passendes Zitat von Karpathy: Die Tokenisierung steht im Zentrum vieler Merkwürdigkeiten von LLMs

    • Der Grund, warum LLMs Wörter nicht buchstabieren können, ist die Tokenisierung
    • Der Grund, warum LLMs einfache String-Verarbeitungsaufgaben nicht ausführen können, ist die Tokenisierung
    • Der Grund, warum LLMs in nicht englischen Sprachen schwach sind, ist die Tokenisierung
    • Der Grund, warum LLMs bei einfacher Arithmetik schwach sind, ist die Tokenisierung
    • Der Grund, warum GPT-2 beim Python-Coding unnötige Schwierigkeiten hatte, ist die Tokenisierung
    • Der Grund, warum ein LLM plötzlich stoppt, wenn es die Zeichenkette "<|endoftext|>" sieht, ist die Tokenisierung
    • Der Grund, warum die Warnung „trailing whitespace“ erscheint, ist die Tokenisierung
    • Der Grund, warum ein LLM kaputtgeht, wenn man nach „SolidGoldMagikarp“ fragt, ist die Tokenisierung
    • Der Grund, warum man in LLMs YAML gegenüber JSON bevorzugen sollte, ist die Tokenisierung
    • Der Grund, warum LLMs in Wirklichkeit kein echtes End-to-End-Sprachmodellierung betreiben, ist die Tokenisierung
    • Die wahre Quelle des Schmerzes ist die Tokenisierung
  • Es ist ein Modell mit drei Komponenten

    • Encoder: Nimmt Byte-Gruppen entgegen und gibt einen verborgenen Zustand/eine Kodierung aus, die als Patch bezeichnet wird
    • Transformer: Verarbeitet die Kodierung der Patches autoregressiv
    • Decoder: Gibt die vom Transformer verarbeitete Kodierung als Bytes aus
    • Der Loss basiert auf byteweiser Kreuzentropie (Vorhersage des nächsten Bytes)
  • So werden Bytes gruppiert

    • Verwendung eines Entropie-Schwellenwerts: Wenn die Entropie einer Byte-Sequenz unter dem Schwellenwert liegt, wird gruppiert
    • Es handelt sich um ein auf Daten trainiertes Modell
  • Es hat Vorteile gegenüber der aktuellen Byte-Pair-Tokenisierung von LLMs

    • Encoder/Decoder arbeiten als „lernbares“ Tokenisierungsschema
    • Der Effizienz-Trade-off ist besser (bei vorhersagbaren Byte-Sequenzen kann der Encoder den Rechenaufwand des Haupt-Transformers „auslagern“)
    • Wie die Geschichte zeigt, übertreffen End-to-End-gelernte Systeme letztlich von Menschen entworfene Mechanismen
  • Ich dachte, wir müssten in eine Plateauphase eintreten