15 Punkte von xguru 2023-06-12 | Noch keine Kommentare. | Auf WhatsApp teilen
  • LLM-Modelle wie GPT/LLaMA/PaLM arbeiten tokenbasiert
  • Sie nehmen Text entgegen, wandeln ihn in Tokens (Integers) um und sagen dann voraus, welches Token als Nächstes erscheinen wird
  • OpenAI hat einen Tokenizer veröffentlicht, aber der Autor hat seine eigene Version als Observable-Notebook veröffentlicht (zu Bildungszwecken, basierend auf GPT-2)
    • Unterstützt Text-zu-Token, Token-zu-Text sowie die Suche in der gesamten Token-Tabelle
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • Anhand der Ergebnisse der Umwandlung dieser Sätze in Tokens wird erklärt:
    • The und the sind unterschiedliche Tokens
    • Viele Wörter haben Tokens, die ein vorangestelltes Leerzeichen enthalten (deutlich effizienter für die Kodierung ganzer Sätze)
    • Wörter außerhalb des Englischen werden ineffizient tokenisiert

Noch keine Kommentare.

Noch keine Kommentare.