4 Punkte von GN⁺ 2024-05-15 | 2 Kommentare | Auf WhatsApp teilen

Needle in a Needlestack: GPT-4os Gedächtnisdurchbruch! (NIAN-Code) - Tom Burns

Einführung in einen neuen Benchmark

  • Needle in a Needlestack ist ein neuer Benchmark, der misst, wie gut LLMs (Large Language Models) Informationen innerhalb ihres Kontextfensters beachten.
  • NIAN erzeugt Prompts mit Tausenden von Limericks und stellt dann eine Frage zu einem einzelnen Limerick an einer bestimmten Position.
  • Ein Beispiel-Prompt enthält etwa 2500 Limericks.
  • Bisher hat kein LLM in diesem Benchmark sehr gute Ergebnisse erzielt.

Versuche mit GPT-4 Turbo und Claude-3 Sonnet

  • Versuche mit GPT-4 Turbo und Claude-3 Sonnet:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

Der Durchbruch von GPT-4o

  • GPT-4o hat einen großen Durchbruch erzielt!
  • In diesem Benchmark zeigt es eine nahezu perfekte Leistung.
  • Ich bin gespannt, wann OpenAI offenlegt, wie GPT-4o im Vergleich zu GPT-4 Turbo so viel besser gemacht wurde.

Leistung der Mistral-Modelle

  • Die Modelle von Mistral sind sehr angenehm in der Nutzung. Die API ist sehr schnell und konsistent.
  • Allerdings hat Mistrals neues 8x22-Modell in diesem Benchmark große Schwierigkeiten.
    • Selbst am Anfang des Prompts liegt die Wahrscheinlichkeit, die Frage korrekt zu beantworten, nur bei 50 %.
    • Mistral large schnitt besser ab, kam aber dennoch nur auf 70 % Genauigkeit.
  • Hinweis: Zur Schätzung der Token-Anzahl wurde der Tokenizer von OpenAI verwendet. Mistral nutzt einen anderen Tokenizer, der etwa 25 % mehr Tokens erzeugt, daher liegt die Token-Anzahl in den Diagrammen unter der tatsächlichen Zahl.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

Leistung bei kurzen Prompts

  • Bei kurzen Prompts zeigen die Modelle eine deutlich bessere Leistung.
  • Beispiel: Vergleich der Leistung von Mistral 7b bei 16k-Token-Prompts und 32k-Token-Prompts.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

Die Bedeutung von Informationswiederholung

  • Die Wiederholung von Informationen macht in diesem Test einen großen Unterschied.
  • GPT-3.5-turbo verbessert sich drastisch, wenn der abgefragte Limerick im Prompt 10-mal wiederholt wird.
    • limerick used once
    • limerick used 10 times

Benchmark-Code und weitere Informationen

  • Der Code für diesen Benchmark ist hier verfügbar.
  • Zusätzliche Modellunterstützung lässt sich leicht ergänzen.
  • Weitere Details dazu, wie Antworten bewertet und Fragen validiert werden, finden sich auf der Methodik-Seite.
  • Bei Fragen bitte über das Kontaktformular melden.
  • Diese Website ist Open Source. Diese Seite verbessern.

Meinung von GN⁺

  • Technischer Fortschritt: Die Leistung von GPT-4o zeigt einen großen Fortschritt bei Gedächtnis und Aufmerksamkeit von LLMs. Das eröffnet die Möglichkeit, komplexere Aufgaben zu bewältigen.
  • Modellauswahl: Beim Vergleich der Leistung verschiedener Modelle ist es wichtig, ein Modell passend zur jeweiligen Aufgabe auszuwählen. Zum Beispiel kann es vorteilhaft sein, ein Modell zu wählen, das bei kurzen Prompts besser abschneidet.
  • Bedeutung von Wiederholung beim Lernen: Der Einfluss von Informationswiederholung auf die Modellleistung sollte berücksichtigt werden. Das kann ein wichtiger Faktor bei der Datenaufbereitung und beim Prompt-Design sein.
  • Vorteile von Open Source: Dass dieser Benchmark Open Source ist, gibt Forschenden und Entwickelnden die Möglichkeit, frei darauf zuzugreifen und ihn zu verbessern. Das kann zur Weiterentwicklung der Community beitragen.
  • Ausblick: Die Weiterentwicklung von Modellen wie GPT-4o kann in vielen Anwendungsfeldern der KI Innovationen bringen. Bei der Einführung solcher Technologien sind jedoch ethische Abwägungen und ein verantwortungsvoller Einsatz notwendig.

2 Kommentare

 
wedding 2024-05-18

Der technische Fortschritt ist wirklich enorm.. :(

 
GN⁺ 2024-05-15
Hacker-News-Kommentare

Zusammenfassung ausgewählter Hacker-News-Kommentare

  • Fehler beim Vergleich von Rechtsdokumenten

    • Beim Vergleich zweier kleiner Rechtsdokumente erkannte GPT-4 fälschlicherweise einige Punkte als nur in einem der Dokumente vorhanden. Tatsächlich war der Inhalt identisch.
    • Es ist nur ein einzelnes Beispiel, aber eine Genauigkeit von 90 % erscheint fragwürdig. Es waren etwa 80k Token.
  • Basierend auf dem Limericks-Datensatz

    • Grundlage ist ein 2021 veröffentlichter Limericks-Datensatz. Es ist gut möglich, dass GPT-4o mit diesem Datensatz trainiert wurde.
    • Das NIAN-Team sollte mit einem anderen Modell Limericks erzeugen und prüfen, ob sie nicht im Datensatz enthalten sind.
  • Grenzen des „Needle in the Haystack“-Tests

    • Dieser Test zeigt die tatsächliche Fähigkeit eines Modells zur Verarbeitung langer Kontexte nur eingeschränkt. Er wurde vor allem genutzt, weil frühe Modelle bei diesem Test schlecht abschnitten.
    • Neuere Modelle zeigen in diesem Test gute Leistungen, aber nach 32K Token sinkt ihre Fähigkeit, komplexe Aufgaben auszuführen, deutlich.
    • Der RULER-Test ist eine bessere Bewertungsmethode.
  • Leistung von Gemini Pro 1.5

    • Gemini Pro 1.5 konnte den gesamten Text von Moby Dick und alle Bücher von Byung Chul-Han verarbeiten. Antworten auf Fragen wurden dabei korrekt gefunden.
  • Bedarf an einem „Synthesis from Haystack“-Test

    • Es braucht eine Methode, die nicht nur einfache Suche, sondern tiefes Verständnis, Verknüpfung und Abstraktion testet.
    • Menschen haben beim Lesen eines Buches eine Gesamteinschätzung oder Intuition. Es braucht eine Möglichkeit, dies zu quantifizieren.
  • HTML-Layout-Transformation mit GPT

    • Mit GPT lassen sich dynamische Daten in Echtzeit in ansprechende HTML-Layouts umwandeln. Das spart Entwicklungszeit und ermöglicht die Aktualisierung von HTML auch bei Änderungen an der Datenstruktur.
    • Bei früheren Versuchen ignorierte GPT-4 Turbo teils den Kontext und die Anweisungen.
  • Verbesserte Aufmerksamkeit von GPT-4o

    • GPT-4o zeigt über das gesamte Eingabefenster hinweg eine bessere Aufmerksamkeit als GPT-4 Turbo und Claude-3 Sonnet.
    • Der Test „Needle In A Needlestack“ wäre ein guter nächster Schritt. Er enthält Prompts mit Tausenden von Limericks und Fragen zu einem Limerick an einer bestimmten Position.
  • Schwierigkeit der LLM-Bewertung

    • Es wurde die Ansicht geäußert, dass im öffentlichen Internet kaum jemand echte LLM-Evaluierungen sauber durchführt.
  • Fragen zum Trainingsdatensatz

    • Es gibt Zweifel daran, wie man wissen kann, dass GPT-4o nicht mit diesem Datensatz trainiert wurde.
    • Der Test ist nur dann aussagekräftig, wenn bekannt ist, dass die Testdaten nicht im Trainingsdatensatz enthalten waren.