Needle in a Needlestack: GPT-4os Gedächtnisdurchbruch! (NIAN-Code) - Tom Burns
Einführung in einen neuen Benchmark
- Needle in a Needlestack ist ein neuer Benchmark, der misst, wie gut LLMs (Large Language Models) Informationen innerhalb ihres Kontextfensters beachten.
- NIAN erzeugt Prompts mit Tausenden von Limericks und stellt dann eine Frage zu einem einzelnen Limerick an einer bestimmten Position.
- Ein Beispiel-Prompt enthält etwa 2500 Limericks.
- Bisher hat kein LLM in diesem Benchmark sehr gute Ergebnisse erzielt.
Versuche mit GPT-4 Turbo und Claude-3 Sonnet
- Versuche mit GPT-4 Turbo und Claude-3 Sonnet:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
Der Durchbruch von GPT-4o
- GPT-4o hat einen großen Durchbruch erzielt!
- In diesem Benchmark zeigt es eine nahezu perfekte Leistung.
- Ich bin gespannt, wann OpenAI offenlegt, wie GPT-4o im Vergleich zu GPT-4 Turbo so viel besser gemacht wurde.
Leistung der Mistral-Modelle
- Die Modelle von Mistral sind sehr angenehm in der Nutzung. Die API ist sehr schnell und konsistent.
- Allerdings hat Mistrals neues 8x22-Modell in diesem Benchmark große Schwierigkeiten.
- Selbst am Anfang des Prompts liegt die Wahrscheinlichkeit, die Frage korrekt zu beantworten, nur bei 50 %.
- Mistral large schnitt besser ab, kam aber dennoch nur auf 70 % Genauigkeit.
- Hinweis: Zur Schätzung der Token-Anzahl wurde der Tokenizer von OpenAI verwendet. Mistral nutzt einen anderen Tokenizer, der etwa 25 % mehr Tokens erzeugt, daher liegt die Token-Anzahl in den Diagrammen unter der tatsächlichen Zahl.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
Leistung bei kurzen Prompts
- Bei kurzen Prompts zeigen die Modelle eine deutlich bessere Leistung.
- Beispiel: Vergleich der Leistung von Mistral 7b bei 16k-Token-Prompts und 32k-Token-Prompts.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
Die Bedeutung von Informationswiederholung
- Die Wiederholung von Informationen macht in diesem Test einen großen Unterschied.
- GPT-3.5-turbo verbessert sich drastisch, wenn der abgefragte Limerick im Prompt 10-mal wiederholt wird.
- limerick used once
- limerick used 10 times
Benchmark-Code und weitere Informationen
- Der Code für diesen Benchmark ist hier verfügbar.
- Zusätzliche Modellunterstützung lässt sich leicht ergänzen.
- Weitere Details dazu, wie Antworten bewertet und Fragen validiert werden, finden sich auf der Methodik-Seite.
- Bei Fragen bitte über das Kontaktformular melden.
- Diese Website ist Open Source. Diese Seite verbessern.
Meinung von GN⁺
- Technischer Fortschritt: Die Leistung von GPT-4o zeigt einen großen Fortschritt bei Gedächtnis und Aufmerksamkeit von LLMs. Das eröffnet die Möglichkeit, komplexere Aufgaben zu bewältigen.
- Modellauswahl: Beim Vergleich der Leistung verschiedener Modelle ist es wichtig, ein Modell passend zur jeweiligen Aufgabe auszuwählen. Zum Beispiel kann es vorteilhaft sein, ein Modell zu wählen, das bei kurzen Prompts besser abschneidet.
- Bedeutung von Wiederholung beim Lernen: Der Einfluss von Informationswiederholung auf die Modellleistung sollte berücksichtigt werden. Das kann ein wichtiger Faktor bei der Datenaufbereitung und beim Prompt-Design sein.
- Vorteile von Open Source: Dass dieser Benchmark Open Source ist, gibt Forschenden und Entwickelnden die Möglichkeit, frei darauf zuzugreifen und ihn zu verbessern. Das kann zur Weiterentwicklung der Community beitragen.
- Ausblick: Die Weiterentwicklung von Modellen wie GPT-4o kann in vielen Anwendungsfeldern der KI Innovationen bringen. Bei der Einführung solcher Technologien sind jedoch ethische Abwägungen und ein verantwortungsvoller Einsatz notwendig.
2 Kommentare
Der technische Fortschritt ist wirklich enorm.. :(
Hacker-News-Kommentare
Zusammenfassung ausgewählter Hacker-News-Kommentare
Fehler beim Vergleich von Rechtsdokumenten
Basierend auf dem Limericks-Datensatz
Grenzen des „Needle in the Haystack“-Tests
Leistung von Gemini Pro 1.5
Bedarf an einem „Synthesis from Haystack“-Test
HTML-Layout-Transformation mit GPT
Verbesserte Aufmerksamkeit von GPT-4o
Schwierigkeit der LLM-Bewertung
Fragen zum Trainingsdatensatz