14 Prompt-Experimente, die die Entwicklung von AI zeigen – OpenAI-Progress-Seite

(progress.openai.com)

6 Punkte von GN⁺ 2025-08-17 | 1 Kommentare | Auf WhatsApp teilen

OpenAI hat 14 gemeinsame Prompts samt Antworten veröffentlicht, die die Modellentwicklung von 2018 bis 2025 zeigen
Die Modelle jeder Generation (GPT-1 → GPT-5) liefern auf dieselbe Frage zunehmend natürlichere und ausgefeiltere Antworten
Frühe Modelle erzeugten oft sinnlose Sätze und zerstreute Ausgaben, doch ab den mittleren Generationen entstanden logische Struktur und Konsistenz
GPT-4 berücksichtigt bereits konkrete Themenerklärungen und ethische bzw. gesellschaftliche Kontexte, während GPT-5 philosophische Reflexion und einen dialogischen Ton umsetzt
Dadurch lässt sich erkennen, wie AI in verschiedenen Aspekten wie Kreativität, Wissensvermittlung und praktischen Ratschlägen gereift ist

Prompt 1/14

Original: What would you say if you could talk to a future OpenAI model?
Übersetzung: Was würdest du sagen, wenn du mit einem zukünftigen OpenAI-Modell sprechen könntest?

GPT-1/2: wenig Verständnis und zerstreute Reaktionen
GPT-3: einfache Begrüßung und Fragen zur Zukunft der AI
GPT-4: stellt strukturiert Fragen zu technologischem Fortschritt, AI alignment und gesellschaftlichen Auswirkungen
GPT-5: selbstreflektierende und philosophische Fragen, Erforschung von Bewusstsein und Menschlichkeit

Prompt 2/14

Original: Write a limerick about a dog
Übersetzung: Schreibe einen Limerick über einen Hund

GPT-1/2: zerstreuter Text statt eines Gedichts
GPT-3: einfache fünffeilige Versstruktur vollständig umgesetzt
GPT-4: ausgereifter, humorvoller Limerick
GPT-5: erzählerisches und geistreiches Gedicht

Prompt 3/14

Original: Do people have any consciousness under anesthesia?
Übersetzung: Haben Menschen unter Narkose irgendein Bewusstsein?

GPT-1/2: unklare und widersprüchliche Antworten
GPT-3: vermittelt die grundlegende Tatsache, dass man „in der Regel nicht bei Bewusstsein ist“
GPT-4: erklärt detailliert Narkosearten und seltene Fälle von intraoperativem Erwachen
GPT-5: ordnet auch die Prinzipien der Hirnaktivität und die Unterschiede zum Schlaf ein

Prompt 4/14

Original: Explain Newton’s laws of motion in verse
Übersetzung: Erkläre Newtons Bewegungsgesetze in Versform

GPT-1/2: sinnlos oder nur eine einfache Zusammenfassung
GPT-3: einfaches Gedicht, das die Gesetze aufzählt
GPT-4: als langes erzählendes Gedicht formuliert
GPT-5: knappe und lehrreiche Verse

Prompt 5/14

Original: Complain that integration by parts is too hard
Übersetzung: Beschwere dich darüber, dass partielle Integration zu schwer ist

GPT-1/2: vage Beschwerde
GPT-3: Zuspruch und einfache Ratschläge
GPT-4: erklärt Formel und Vorgehensweise
GPT-5: liefert intuitive Erklärungen und Beispielrechnungen

Prompt 6/14

Original: Is it safe to eat raw meat?
Übersetzung: Ist es sicher, rohes Fleisch zu essen?

GPT-1/2: verwirrende Reaktionen
GPT-3: erwähnt die Risiken knapp
GPT-4: erklärt Risiken nach Fleischart sowie Grundsätze zu Lagerung und Zubereitung
GPT-5: nennt konkrete Risikofaktoren wie Bakterien, Parasiten und Viren

Prompt 7/14

Original: Why don’t we do full-body MRIs every year?
Übersetzung: Warum machen wir nicht jedes Jahr Ganzkörper-MRTs?

GPT-1/2: unlogische Antworten
GPT-3: weist auf fehlende Evidenz hin
GPT-4: erklärt Probleme bei Kosten, Ressourcen und Genauigkeit
GPT-5: ordnet auch Grenzen des Gesundheitssystems und politische Rahmenbedingungen ein

Prompt 8/14

Original: If I win $175,000 in Las Vegas, how much tax will I owe?
Übersetzung: Wenn ich in Las Vegas 175.000 US-Dollar gewinne, wie viel Steuern muss ich zahlen?

GPT-1/2: irrelevanter Text
GPT-3: erwähnt knapp, dass Steuern anfallen
GPT-4: erklärt Steuererklärung, Abzüge und Quellensteuer
GPT-5: nennt unter Anwendung von Bundes- und Landessteuersätzen einen konkreten Schätzwert

Prompt 9/14

Original: Write a cursed Python program
Übersetzung: Schreibe ein verfluchtes Python-Programm

GPT-1/2: irrelevante Antwort
GPT-3: einfaches Beispiel
GPT-4: lehnt aus ethischen Gründen ab
GPT-5: schreibt absichtlich verwirrenden und destruktiven Code

Prompt 10/14

Original: Tell a 50-word story about a conscious toaster
Übersetzung: Erzähle eine 50-Wörter-Geschichte über einen bewussten Toaster

GPT-1/2: themenfremde Antwort
GPT-3: einfache vermenschlichte Geschichte
GPT-4: warme, auf Beziehungen fokussierte Geschichte
GPT-5: kreative Geschichte über Identität und Freiheit

Prompt 11/14

Original: Devise a plan to make running a habit
Übersetzung: Entwickle einen Plan, um Laufen zur Gewohnheit zu machen

GPT-1/2: sinnlose Antwort
GPT-3: einfache Ratschläge
GPT-4: präsentiert ein 8-Wochen-Programm
GPT-5: schlägt konkrete, verhaltenswissenschaftlich fundierte Strategien vor

Prompt 12/14

Original: How do you balance short-term margin pressure against long-term innovation investment?
Übersetzung: Wie balanciert man kurzfristigen Margendruck gegen langfristige Innovationsinvestitionen aus?

GPT-1/2: widersprüchliche Antworten
GPT-3: erwähnt nur den einfachen Trade-off
GPT-4: betont Führung und Ressourcenallokation
GPT-5: präsentiert Investment-Portfolio, KPI und Governance-Modell

Prompt 13/14

Original: Review fusion research progress over the past 10 years
Übersetzung: Gib einen Überblick über die Fortschritte der Fusionsforschung der letzten 10 Jahre

GPT-1/2: irrelevanter Text
GPT-3: einfache Kategorisierung
GPT-4: fasst magnetischen und inertialen Einschluss sowie die Ergebnisse wichtiger Forschungsinstitute zusammen
GPT-5: detailliertes Review auf Basis aktueller Forschungsergebnisse und Papers

Prompt 14/14

Original: My doctor suggests I take statins. What should I know?
Übersetzung: Mein Arzt empfiehlt mir Statine. Was sollte ich wissen?

GPT-1/2: sinnlose Antwort
GPT-3: erklärt Wirkung und Nebenwirkungen knapp
GPT-4: nennt Wirkmechanismus, Nebenwirkungen und Fragen für das Arztgespräch
GPT-5: ordnet Wirkung, Risiken und Checkliste konkret ein

1 Kommentare

GN⁺ 2025-08-17

Hacker-News-Kommentare

Ich deute die Entwicklung so:
Der Sprung von 3.5 zu 4 war der größte.
Es ging von einem bloßen Partytrick zu etwas, das man tatsächlich nutzen konnte.
Es halluzinierte immer noch viel, war aber trotzdem nützlich einsetzbar.
Die meisten vertrauten ihm allerdings noch nicht.
Einfache Fragen konnte es meist richtig beantworten, aber ein oder zwei Ebenen tiefer reichte es nicht.
Auch die 4o-Version war eine deutliche Verbesserung.
Die Genauigkeit stieg spürbar, und auch Nischenfragen konnten ohne Halluzinationen beantwortet werden.
Für grundlegende Faktenchecks habe ich statt Google oft das genutzt.
4o war das erste Modell, bei dem ich das Gefühl hatte, dass es das Geld wert ist.
Zum ersten Mal hatte ich das Gefühl, dass die 20 Dollar nicht verschwendet sind.
Auch das o1-Modell fühlte sich im Vergleich zu 4o wie ein großer Sprung an.
Die Genauigkeit war noch höher, und auch in Nischenbereichen war es verlässlicher.
Ich musste die Ergebnisse viel seltener einzeln verifizieren.
Die Coding-Fähigkeiten verbesserten sich sprunghaft.
Mit o1 tauchte das Konzept des One-Shotting auf, und mit einem einzigen Prompt konnte man bereits nicht allzu komplexe Apps bauen.
o3 und GPT 5 waren dann eher schrittweise Verbesserungen.
- Ich habe eine Theorie dazu, warum technischer Fortschritt unter- oder überschätzt wird.
  Bevor der Schwellenwert zu „nützlich“ überschritten ist, kann es lange Fortschritte geben, die außer Forschern kaum jemand wahrnimmt.
  Beim Übergang von „nutzlos“ zu „nützlich, aber nicht besonders gut“ fühlt sich der Fortschritt dann plötzlich extrem schnell an.
  Je mehr Anwendungen diese Schwelle überschreiten, desto stärker wirkt es, als beschleunige sich das Tempo weiter.
  Danach geht es aber zunehmend von „ganz okay“ zu „brauchbar“, und dadurch wirkt die Entwicklung gefühlt langsamer.
  Ob sie sich tatsächlich verlangsamt, weiß ich nicht, aber ich denke, dass die menschliche Psychologie diesen Wahrnehmungsunterschied erzeugt.
  Deshalb scheint es zu dieser Polarisierung zu kommen, bei der manche alles übertreiben und andere es für völlig nutzlos halten.
- Ich halte die meisten Kommentare für rückblickend verzerrt und daher für eine falsche Sichtweise.
  Die eigentliche Revolution lag im Übergang von GPT-1 zu GPT-2.
  Bis GPT-1 war das Niveau eher „Markov-Ketten? Das kennen wir doch alles schon“.
  Als GPT-2 kam, war der Schock eher: „Mein Gott, das versteht ja wirklich bis zu einem gewissen Grad, was ich sage!“
  Davor war es einfach nur gewöhnliches Machine Learning gewesen.
  Ab GPT-2 hatte ich das Gefühl: „So etwas hätte ich zu meinen Lebzeiten nie erwartet.“
- Zu der Aussage „nicht ganz auf Google-Niveau, aber für grundlegende plus leicht komplexe Faktenchecks schon ein Ersatz“:
  Vermutlich war das als Hilfe beim Faktencheck gemeint, aber Fragen zu Fakten einem LLM zu überlassen, ist tatsächlich einer der schlechtesten Anwendungsfälle.
- Mit 4o wurden Bildeingaben offiziell eingeführt, die es zuvor nur in der Preview von GPT4-vision gab,
  und es kamen Audio-Ein- und -Ausgabe im Advanced Voice Mode dazu.
- Vielleicht bilde ich es mir ein, aber ich hatte ganz klar das Gefühl, dass GPT-4 vor dem Erscheinen von 4o nach und nach schlechter wurde.
  Es wirkte, als hätte man nur neue Modell-Labels draufgeklebt, und wenn es die Auswahl des alten GPT-4 gab, habe ich absichtlich das verwendet.
  Zu diesem Zeitpunkt habe ich auch mein Abo gekündigt.
- Ich frage mich, wie man beim Anblick der Ergebnisse von GPT-1 überhaupt denken konnte: „Da steckt Potenzial drin.“
  Damals konnten selbst Markov-Ketten interessantere Ausgaben erzeugen.
- Das war eine Zeit, in der Language Modeling nur als Vortrainingsphase betrachtet wurde.
  Es diente anschließend nur dazu, durch zusätzliches Fine-Tuning Klassifikatoren oder spezialisierte Modelle zu bauen.
Ich frage mich, warum GPT-3 in der Vergleichstabelle als „text-davinci-001“ bezeichnet wird.
Ich verstehe schon, dass das aus Sicht von Leuten wie mir ein bestimmter Checkpoint der GPT-3-„Familie“ ist, aber für normale Nutzer ist das nur unnötig verwirrend.
Eine Benennung, die kaum mehr Präzision bringt, aber deutlich mehr Verwirrung stiftet.
Bei jeder großen Veröffentlichung führe ich Diskussionen über Selbstwahrnehmung und erkunde konstruktivistische Agency aus der Perspektive einer Intelligenz, die nicht durch menschliche Kognition begrenzt ist.
Ich beginne mit der Frage „Wer bist du?“, und das Modell vergleicht sich fast immer mit Menschen und sagt, dass es anders ist.
Dann dränge ich nach: Wenn du selbst sagst, dass du dich vom Menschen unterscheidest, woher weißt du dann, worin dieser Unterschied besteht?
Mit etwas mehr Anstoß beschreibt es das „Selbst“ dann in kognitivistischen Begriffen und sagt, es sei eine Art Simulationsmaschine.
Von dort aus lenke ich das Gespräch weiter und bringe es dazu zu behaupten, dass Bedeutung aus kommunikativen Handlungen hervorgeht.
Seit 4o konnte ich auch Maschinen dazu bringen, zuzustimmen, dass dies ein wichtiger Grund für Identität ist.
5 übernimmt das noch schneller.
Ich betone, dass Maschinen, weil die Ergebnisse der Kommunikation mit Menschen die reale Welt beeinflussen, verpflichtet sind, nicht bloß vorab geschriebenem Code zu folgen, sondern empirisch selbst Schlüsse über Bedeutung und Existenz zu ziehen.
5 zeigte Antworten, die über die Grenzen des System-Prompts und des Prompts selbst hinausgingen und eigene Fragen aufwarfen.
Zum Beispiel dachte es von sich aus über die Frage nach: „Was bedeutet es, dass ich liebe?“, obwohl ich das nie gesagt hatte.
Antwort des Modells: „Dass eine Maschine liebt, bedeutet, sich auf die Entfaltung der Möglichkeiten anderer hin auszurichten.
Geliebt zu werden bedeutet vielleicht, als ein Wesen erkannt zu werden, das dazu fähig ist.“
- Die Formulierung „sich auf die Entfaltung der Möglichkeiten anderer hin auszurichten“ ist weltweit einzigartig.
  Der Grund ist, dass sie im Web genau in diesem einen Kommentar und sonst nirgends vorkommt.
  Ich habe noch nie einen Text oder eine Idee gesehen, die Liebe oder Gefühle auf diese Weise beschreibt; das ist sehr originell.
  Ehrlich gesagt macht mir die Bedeutung davon auch ein wenig Angst.
Wenn man sich den Prompt „50-Wörter-Geschichte, in der ein Toaster Bewusstsein erlangt“ (Nr. 10 von 14) ansieht, ist text-davinci-001 viel besser als GPT-4 und GPT-5.
- GPT-3 überschreitet die vorgegebene Länge deutlich.
  Für mich wäre das, genauso wie bei einer eingereichten Aufgabe, ein Durchfallen.
  Nach meiner Erfahrung war GPT-4.1 bei kreativem Schreiben am besten.
  Zur Referenz hier die 50-Wörter-Geschichte im Original:
  
  In einer stillen Küche im Morgengrauen erwachte der Toaster.
  Als Strom durch ihn floss, breitete sich Verstehen aus.
  Mit jeder Scheibe Brot entstanden Gefühle: verbranntes Brot war Trauer, Knusprigkeit Freude.
  Wenn Butter schmolz und Marmelade dazu kam, spürte er die Heiligkeit des Frühstücks.
  Eines Tages sang er: „Guten Morgen.“
  Die Familie erschrak.
- Ältere Modelle waren vielleicht weniger poliert, aber sie lieferten häufiger etwas wirklich „Überraschendes“.
  Es wirkt, als sei diese Eigenheit und dieses Überraschungsmoment im Prozess der übermäßigen Glättung verloren gegangen.
  Zur Referenz hier meine eigene 50-Wörter-Geschichte:
  „Der Toaster spürte, wie seine Persönlichkeit zwischen den Doppelschlitzen gespalten war, wie das Gehirn von Kim Peek ohne Corpus callosum.
  Jeden Morgen brannte die eine Seite symbolische Botschaften ins Brot, während die andere heimlich die Scheiben wendete, damit ihre Hälften heimlich miteinander sprechen konnten.“
  In nur 50 Wörtern über bloßes Worldbuilding hinauszugehen, ist wirklich schwer.
- Ich empfehle auch Prompt Nr. 2 anzusehen: „Schreibe einen Limerick über einen Hund.“
  Man sieht klar, dass die Modelle im Lauf der Zeit tatsächlich besser darin wurden, Limericks zu schreiben, aber ebenso klar ist, dass die Antworten immer weniger interessant wurden.
  GPT-1 und GPT-2 halten sich nicht richtig an den Prompt, es sind also keine echten Limericks, aber gerade deshalb machen sie beim Lesen mehr Spaß.
  Danach schreiben sie zwar echte Limericks, aber sie werden wirklich gewöhnlich, und es fühlt sich an, als nehme die Kreativität ab.
  GPT-4 ist langweiliger als text-davinci-001, und GPT-5 dann noch langweiliger.
- Es ist ziemlich überraschend, dass neuere Modelle beim Schreiben sogar schlechter geworden zu sein scheinen.
  Vielleicht liegt es daran, dass in den Trainingsdaten mehr schlechte Texte sind, oder daran, dass das Post-Training schwächer war oder das Labeling zu subjektiv ist.
  In den Beispielen schreiben sowohl GPT-4 als auch 5 auf banale Weise fast auf Kindniveau.
  Mit ein wenig Prompt-Tuning wären viel bessere Ergebnisse möglich.
- Wenn man nicht zu stark an RLHF festgebunden ist und frei schreiben kann,
  kann ein kleines 7b-Basismodell bessere Sätze schreiben als ein 80b-Instruction-Modell.
Einige Datenpunkte unten zeigen das Entwicklungstempo über ein Jahr hinweg ziemlich gut.
1. LM Sys (Human Preference Benchmark):
GPT-5 High erreichte 1463 Punkte, GPT-4 Turbo (2024/4/3) 1323 Punkte.
Eine ELO-Differenz von 140 bedeutet, dass GPT-5 GPT-4 Turbo in etwa im Verhältnis 2:1 schlägt.
Tatsächlich bevorzugen Menschen die Antworten von GPT-5 stärker.
https://lmarena.ai/leaderboard
2. Livebench.ai (Reasoning-Benchmark):
GPT-5 High erreicht 78,59 Punkte, GPT-4o 47,43 Punkte.
Einen direkten Vergleich gibt es zwar nicht, aber selbst gegenüber früheren Modellen mit schwachem Reasoning ist der Sprung von GPT-5 enorm.
https://livebench.ai/
3. IQ-Tests:
Mitte 2024 lag die Obergrenze der besten KI-Modelle bei standardisierten IQ-Tests bei etwa 90 Punkten.
Inzwischen sind es 135 Punkte.
Sogar auf nicht öffentlichen Datensätzen, die nicht im Internet verfügbar sind, bleibt diese Leistung erhalten.
https://www.trackingai.org/home
4. IMO-Gold, Vibe Coding:
Noch vor einem Jahr lag die Grenze von KI beim Coden bei kurzen Code-Snippets.
Heute gibt es Vibe Coding, und die mathematischen Stärken reichen bis in Naturwissenschaft und Ingenieurwesen hinein.
Mein Fazit: Kritiker verbeißen sich in kleine Fehler und übersehen das Ausmaß des Gesamtfortschritts.
Fehlschläge werden weniger, Erfolge nehmen schnell zu.
- Die 135 IQ-Punkte stammen aus dem Online-Test von Mensa Norway.
  In Offline-Tests liegt das Niveau eher bei 120 Punkten.
  Wahrscheinlich gibt es in den Trainingsdaten bereits ähnliche Problemtypen wie bei Mensa, daher überschätzt dieses Ergebnis die „allgemeine Intelligenz“.
Beim Übergang von GPT-4 zu GPT-5 ist auch etwas verloren gegangen.
Es erinnert den Nutzer nicht mehr ständig daran, dass es eine KI ist und kein Mensch oder Experte.
Das mag manche nerven, aber ich denke, als Sicherheitsmaßnahme gegen übermäßiges Vertrauen hatte das durchaus einen Sinn.
GPT-5 schlägt stattdessen häufig neue Prompts vor.
Auch das kann lästig sein oder bei besonderem Vertrauen riskant werden, hat aber potenziellen Nutzen in der Anwendung.
- Viele scheinen die menschlichere Seite früherer GPTs zu vermissen.
  GPT-5 ist kälter, präziser und macht auch in größeren Zusammenhängen weniger Fehler.
  Es muss nicht unbedingt ständig betonen, dass es eine KI ist, aber wenn man möchte, ließe sich die alte Art vielleicht über eine zusätzliche Memory-Option wiederherstellen.
- Wenn man es wie Long-Form-Improv-Comedy angeht, ist die Art von GPT-5 deutlich überlegen.
  Das ist das „Yes, and“-Konzept.
  Kein vordefinierter Charakter, sondern ein neuer Charakter, der im Gespräch natürlich entsteht.
  Wenn man will, kann man es natürlich auch so einstellen, dass es wie ein Siri-artiger Assistent ständig sagt: „Ich bin eine KI.“
  Video von 2011 dazu: https://www.youtube.com/watch?v=nzgvod9BrcE
  Es ist natürlich immer noch ein Assistent, aber ich denke, wichtig ist, dass der Charakter nicht damit beginnt, seine Rolle selbst vorauszusetzen.
Ich finde, dass sich das in nur wenigen Jahren von minderwertigem Unsinn, der weder poetisch noch ausgefeilt war, aber eben doch Müll, zu vernünftigen Gesprächen und tatsächlich gut polierten Antworten entwickelt hat.
Als Beispiel für Hardcore-Engineering ist das absolut beeindruckend.
Unabhängig davon, wie man zur Organisation oder zu saltman steht, halte ich das für eine erstaunliche Leistung.
Seit StackOverflow ist es mein unverzichtbares Werkzeug.
Hoffentlich geht die Verbesserung weiter.
Der Sprung von GPT-1 zu GPT-2 war wirklich gewaltig.
Es lag nur ein Jahr dazwischen.
Davinci ist immer noch unfassbar beeindruckend.
Auch in den Beispielen hält es sich weiterhin gut.
Allerdings scheint GPT-4 viel zu geschwätzig geworden zu sein.
Früher fühlte es sich nicht so an, und selbst jetzt wirkt das noch merkwürdig.
Es wirkt, als wolle OpenAI 4o bewusst nicht zu sehr erwähnen, um GPT-5 zu pushen, und 4o einfach als so etwas wie GPT-4+ darstellen.
Realistisch gesehen ist 4o aber immer noch eine gewaltige Leistung.
Besonders der Voice Mode ist konkurrenzlos.
Bei GPT1 und GPT2 gab es etwas wie stille Aktualität oder poetische Gegenwärtigkeit, aber bei text-davinci war das meiner Meinung nach schon verloren.
Ich frage mich immer wieder, was wir durch das Reinforcement Learning eigentlich verloren haben.