- Heute hat OpenAI GPT-4.5 veröffentlicht
- Der Grund, warum man seit der Veröffentlichung von GPT-4 fast 2 Jahre darauf gewartet hat, ist, dass dieses Release die Möglichkeit bietet, die Verbesserungen, die man durch das Training eines einfach größeren Modells erzielen kann, quantitativ zu messen
- Jedes „0.5“ einer Version steht grob für 10-mal mehr Pre-Training-Compute
- Die Entwicklung der GPT-Modelle
- GPT-1 → konnte kaum sinnvolle Sätze erzeugen
- GPT-2 → wirkte wie ein unausgereiftes Spielzeug
- GPT-2.5 → wurde praktisch übersprungen, stattdessen ging es direkt zu GPT-3
- GPT-3 → zeigte interessante Fortschritte
- GPT-3.5 → entwickelte sich weit genug, um als echtes Produkt veröffentlicht zu werden, und löste den ChatGPT-Boom aus
- GPT-4 → war weiter verbessert, aber es war schwer, einen klaren „Wow“-Moment zu finden
- Vor allem im Vergleich von GPT-4 mit GPT-3.5:
- Die Wortwahl ist kreativer, und Nuancen in Prompts werden besser verstanden
- Analogien sind passender, und der Sinn für Humor ist etwas besser
- Auch in seltenen Wissensgebieten ist das Verständnis verbessert, und Halluzinationen treten etwas seltener auf
- Insgesamt hatte man den Eindruck, dass alles um 20 % besser geworden ist
- Das war eine Verbesserung, als würde mit steigendem Wasserstand jedes Boot angehoben
Eindruck aus Tests mit GPT-4.5
- GPT-4.5 hat 10-mal mehr Pre-Training als GPT-4 durchlaufen
- Und nach einigen Tests zeigte sich, dass sich wieder dasselbe 20-%-Muster wiederholt
- Alles wurde ein bisschen besser
- Aber es gibt keinen klar benennbaren „eindeutigen Innovationspunkt“
- Trotzdem ist es ein interessanter und wichtiger Indikator, um die Steigung der allgemeinen Verbesserungsrichtung von Modellen zu messen
GPT-4.5 ist noch kein „Reasoning“-Modell
- Bei GPT-4.5 wurden nur Pre-Training, Supervised Fine-Tuning (SFT) und RLHF angewendet
- Deshalb verbessert es sich nicht bei Problemen, die logisches Schlussfolgern erfordern, etwa in Mathematik oder beim Coding
- In diesen Bereichen sind Reinforcement Learning (RL) und systematisches Training des Denkens nötig, und derzeit zeigt das OpenAI-o1-Modell die beste Leistung
- Vermutlich wird OpenAI GPT-4.5 als Basis nehmen und mit Reinforcement Learning zu einem „denkenden“ Modell weiterentwickeln
- Damit dürfte man versuchen, die Fähigkeiten in Mathematik, Logik und Coding zu verbessern
Stärke von GPT-4.5: EQ
- Verbesserungen zeigen sich bei Aufgaben, bei denen nicht logisches Schlussfolgern, sondern Weltwissen, Kreativität, Analogie, Sinn für Humor und ähnliche Aspekte emotionaler Intelligenz (EQ) wichtig sind
Deshalb will er ein interaktives Experiment durchführen: „Abstimmung zum Vergleich von GPT-4 und GPT-4.5“
Noch keine Kommentare.