Andrej Karpathys Rezension von GPT-4.5

xguru · 2025-02-28T10:00:02+09:00

Heute hat OpenAI GPT-4.5 veröffentlicht Der Grund, warum man seit der Veröffentlichung von GPT-4 fast 2 Jahre darauf gewartet hat, ist, dass dieses Release die Möglichkeit bietet, die Verbesserungen, die man durch das Training eines einfach größeren Modells erzielen kann, quantitativ zu messen Jedes „0.5“ einer Version steht grob für 10-mal mehr Pre-Training-Compute Die Entwicklung der GPT-Modelle GPT-1 → konnte kaum sinnvolle Sätze erzeugen GPT-2 → wirkte wie ein unausgereiftes Spielzeug GPT-2.5 → wurde praktisch übersprungen, stattdessen ging es direkt zu GPT-3 GPT-3 → zeigte interessante Fortschritte GPT-3.5 → entwickelte sich weit genug, um als echtes Produkt veröffentlicht zu werden, und löste den ChatGPT-Boom aus GPT-4 → war weiter verbessert, aber es war schwer, einen klaren „Wow“-Moment zu finden Vor allem im Vergleich von GPT-4 mit GPT-3.5: Die Wortwahl ist kreativer, und Nuancen in Prompts werden besser verstanden Analogien sind passender, und der Sinn für Humor ist etwas besser Auch in seltenen Wissensgebieten ist das Verständnis verbessert, und Halluzinationen treten etwas seltener auf Insgesamt hatte man den Eindruck, dass alles um 20 % besser geworden ist Das war eine Verbesserung, als würde mit steigendem Wasserstand jedes Boot angehoben Eindruck aus Tests mit GPT-4.5 GPT-4.5 hat 10-mal mehr Pre-Training als GPT-4 durchlaufen Und nach einigen Tests zeigte sich, dass sich wieder dasselbe 20-%-Muster wiederholt Alles wurde ein bisschen besser Aber es gibt keinen klar benennbaren „eindeutigen Innovationspunkt“ Trotzdem ist es ein interessanter und wichtiger Indikator, um die Steigung der allgemeinen Verbesserungsrichtung von Modellen zu messen GPT-4.5 ist noch kein „Reasoning“-Modell Bei GPT-4.5 wurden nur Pre-Training, Supervised Fine-Tuning (SFT) und RLHF angewendet Deshalb verbessert es sich nicht bei Problemen, die logisches Schlussfolgern erfordern, etwa in Mathematik oder beim Coding In diesen Bereichen sind Reinforcement Learning (RL) und systematisches Training des Denkens nötig, und derzeit zeigt das OpenAI-o1-Modell die beste Leistung Vermutlich wird OpenAI GPT-4.5 als Basis nehmen und mit Reinforcement Learning zu einem „denkenden“ Modell weiterentwickeln Damit dürfte man versuchen, die Fähigkeiten in Mathematik, Logik und Coding zu verbessern Stärke von GPT-4.5: EQ Verbesserungen zeigen sich bei Aufgaben, bei denen nicht logisches Schlussfolgern, sondern Weltwissen, Kreativität, Analogie, Sinn für Humor und ähnliche Aspekte emotionaler Intelligenz (EQ) wichtig sind Deshalb will er ein interaktives Experiment durchführen: „Abstimmung zum Vergleich von GPT-4 und GPT-4.5“ Es wurden Prompts ausgewählt, mit denen 5 Arten von Humor bewertet werden Für jeden Prompt werden die Antworten von GPT-4 und GPT-4.5 verglichen Das Experiment läuft auf X (Twitter) mit Bildern (Prompts und Antworten) + Abstimmungsfunktion Nach 8 Stunden soll offengelegt werden, welche Antwort von welchem Modell stammt

(x.com)

3 Punkte von xguru 2025-02-28 | Noch keine Kommentare. | Auf WhatsApp teilen

Heute hat OpenAI GPT-4.5 veröffentlicht
Der Grund, warum man seit der Veröffentlichung von GPT-4 fast 2 Jahre darauf gewartet hat, ist, dass dieses Release die Möglichkeit bietet, die Verbesserungen, die man durch das Training eines einfach größeren Modells erzielen kann, quantitativ zu messen
- Jedes „0.5“ einer Version steht grob für 10-mal mehr Pre-Training-Compute
Die Entwicklung der GPT-Modelle
- GPT-1 → konnte kaum sinnvolle Sätze erzeugen
- GPT-2 → wirkte wie ein unausgereiftes Spielzeug
- GPT-2.5 → wurde praktisch übersprungen, stattdessen ging es direkt zu GPT-3
- GPT-3 → zeigte interessante Fortschritte
- GPT-3.5 → entwickelte sich weit genug, um als echtes Produkt veröffentlicht zu werden, und löste den ChatGPT-Boom aus
- GPT-4 → war weiter verbessert, aber es war schwer, einen klaren „Wow“-Moment zu finden
Vor allem im Vergleich von GPT-4 mit GPT-3.5:
- Die Wortwahl ist kreativer, und Nuancen in Prompts werden besser verstanden
- Analogien sind passender, und der Sinn für Humor ist etwas besser
- Auch in seltenen Wissensgebieten ist das Verständnis verbessert, und Halluzinationen treten etwas seltener auf
- Insgesamt hatte man den Eindruck, dass alles um 20 % besser geworden ist
- Das war eine Verbesserung, als würde mit steigendem Wasserstand jedes Boot angehoben

Eindruck aus Tests mit GPT-4.5

GPT-4.5 hat 10-mal mehr Pre-Training als GPT-4 durchlaufen
Und nach einigen Tests zeigte sich, dass sich wieder dasselbe 20-%-Muster wiederholt
Alles wurde ein bisschen besser
- Aber es gibt keinen klar benennbaren „eindeutigen Innovationspunkt“
- Trotzdem ist es ein interessanter und wichtiger Indikator, um die Steigung der allgemeinen Verbesserungsrichtung von Modellen zu messen

GPT-4.5 ist noch kein „Reasoning“-Modell

Bei GPT-4.5 wurden nur Pre-Training, Supervised Fine-Tuning (SFT) und RLHF angewendet
Deshalb verbessert es sich nicht bei Problemen, die logisches Schlussfolgern erfordern, etwa in Mathematik oder beim Coding
In diesen Bereichen sind Reinforcement Learning (RL) und systematisches Training des Denkens nötig, und derzeit zeigt das OpenAI-o1-Modell die beste Leistung
Vermutlich wird OpenAI GPT-4.5 als Basis nehmen und mit Reinforcement Learning zu einem „denkenden“ Modell weiterentwickeln
Damit dürfte man versuchen, die Fähigkeiten in Mathematik, Logik und Coding zu verbessern

Stärke von GPT-4.5: EQ

Verbesserungen zeigen sich bei Aufgaben, bei denen nicht logisches Schlussfolgern, sondern Weltwissen, Kreativität, Analogie, Sinn für Humor und ähnliche Aspekte emotionaler Intelligenz (EQ) wichtig sind

Deshalb will er ein interaktives Experiment durchführen: „Abstimmung zum Vergleich von GPT-4 und GPT-4.5“

Es wurden Prompts ausgewählt, mit denen 5 Arten von Humor bewertet werden
Für jeden Prompt werden die Antworten von GPT-4 und GPT-4.5 verglichen
Das Experiment läuft auf X (Twitter) mit Bildern (Prompts und Antworten) + Abstimmungsfunktion
Nach 8 Stunden soll offengelegt werden, welche Antwort von welchem Modell stammt