Drei Jahre von GPT-3 bis Gemini 3

(oneusefulthing.org)

5 Punkte von GN⁺ 2025-11-26 | 1 Kommentare | Auf WhatsApp teilen

Googles Gemini 3 hat sich über einen einfachen dialogorientierten Chatbot hinaus zu einer digitalen KI-Begleiterin entwickelt, die reale Aufgaben wie Code schreiben, im Web navigieren und Dateien bearbeiten ausführt
Das gleichzeitig vorgestellte Antigravity ist ein agentenbasiertes Tool, das auf den Computer des Nutzers zugreift, eigenständig Programme schreibt und über ein Inbox-System Freigaben oder Hilfe anfordert
Gemini 3 erledigt auf Anweisung des Nutzers sogar den Aufbau von Websites, Datenanalysen und das Schreiben von Fachartikeln und zeigt dabei Forschungsfähigkeiten auf PhD-Niveau
Fehler gibt es weiterhin, sie bewegen sich aber eher auf dem Niveau von Unterschieden im Urteilsvermögen oder Verständnis; damit ähnelt das System stärker einem „KI-Teammitglied“, das mit Menschen zusammenarbeitet
Der Text betont den „Übergang vom Zeitalter der Chatbots zum Zeitalter digitaler Begleiter“: Menschen korrigieren nicht mehr nur Fehler der KI, sondern werden zunehmend zu Managern, die die Arbeit der KI steuern

Das Erscheinen von Gemini 3 und der Wandel in drei Jahren

Rund drei Jahre nach der Einführung von ChatGPT zeigt Google Gemini 3, wie schnell sich KI entwickelt
- In der Ära von GPT-3.5 im Jahr 2022 lag das Niveau noch beim einfachen Erzeugen von Absätzen oder Gedichten
- 2025 ist Gemini 3 bereits in der Lage, interaktive Spiele direkt zu coden und zu gestalten
Gemini 3 erzeugte auf Anfrage des Nutzers ein tatsächlich spielbares Spiel mit dem Titel „Candy-Powered FTL Starship Simulator“
- Das zeigt die Entwicklung von einer Phase, in der KI nur Text erklärte, hin zu einer Phase, in der sie Code und Interface direkt umsetzt

Antigravity und agentische KI

Google stellte zusammen mit Gemini 3 ein Entwickler-Tool namens Antigravity vor
- Ähnlich wie Claude Code oder OpenAI Codex ist es ein System, das auf den Computer des Nutzers zugreift und selbstständig Code schreibt
Antigravity führt ein Inbox-Konzept ein: Wenn die KI während der Arbeit Freigaben oder Hilfe benötigt, sendet sie dem Nutzer eine Benachrichtigung
Der Nutzer gibt Anweisungen auf Englisch, und die KI setzt sie in Code um
- Als Beispiel analysierte sie die Newsletter-Dateien des Autors und erstellte automatisch eine Website, die KI-bezogene Prognosen zusammenfasst
- Die KI führte Websuche, Code-Ausführung und Browser-Tests durch und verpackte das Ergebnis so, dass es auf Netlify deployt werden konnte

Gemini 3 als kollaborative KI

Gemini 3 teilt seinen Fortschritt transparent, indem es während der Arbeit Nutzerfreigaben anfordert
- Der Nutzer prüft und überarbeitet die Vorschläge der KI und arbeitet so mit ihr zusammen
- Dieser Prozess fühlt sich eher nach „KI-Management“ an
Die KI ist nicht perfekt, aber ihre Fehler liegen eher bei Unterschieden im Urteilsvermögen oder Missverständnissen bei der Interpretation von Absichten; das bisherige Problem der Halluzinationen ist fast verschwunden
Die Zusammenarbeit mit Gemini 3 ähnelt dem „Management eines Teammitglieds“ und geht deutlich über das bloße Eingeben eines Prompts hinaus

Forschungsleistung und die Bewertung „PhD-Niveau“

Gemini 3 übernahm Aufgaben wie die Analyse von Forschungsdatensätzen und das Schreiben eines Fachartikels
- Es stellte eine alte Crowdfunding-Datendatei wieder her, bereinigte sie und führte neue Analysen durch
- Anschließend schrieb es einen 14-seitigen Fachartikel zum Thema „Gründung und Geschäftsstrategie“
Die KI entwickelte eigenständige Hypothesen, führte statistische Analysen durch und erzeugte eigene Metriken zur Messung der Originalität von Ideen
Das Ergebnis erreichte die Qualität eines Graduiertenstudenten, auch wenn einzelne statistische Methoden und die theoretische Ausarbeitung noch Schwächen zeigten
- Mit zusätzlichen Anweisungen verbesserte sich die Qualität deutlich
- Der Autor bewertet es so, dass „Intelligenz auf PhD-Niveau nicht mehr fern ist“

Der Übergang zum digitalen Begleiter

Gemini 3 ist eine partnerartige KI, die denkt und handelt, und für Milliarden Menschen weltweit zugänglich
Es gibt keine Anzeichen für eine Verlangsamung der KI-Entwicklung; stattdessen rücken der Aufstieg agentischer Modelle und die Bedeutung von Kompetenz im Management von KI in den Vordergrund
Der Autor beschreibt dies als „Übergang vom Zeitalter der Chatbots zum Zeitalter digitaler Begleiter“
- Menschen sind nun nicht mehr nur dafür da, Fehler der KI zu korrigieren, sondern werden zu Managern, die die Arbeit der KI dirigieren
Zum Schluss demonstrierte Gemini 3 kreative Fähigkeiten jenseits von Text, etwa indem es allein mit Code ein Coverbild für einen Blog erzeugte
Allerdings ist Vorsicht geboten: Wer einer KI Zugriff auf den eigenen Computer gibt, geht damit auch Sicherheitsrisiken ein

1 Kommentare

GN⁺ 2025-11-26

Hacker-News-Kommentare

Jedes Mal, wenn ich solche Artikel sehe, fehlt für mich immer ein Teil — nämlich die Frage: „Ist es gut, ist es korrekt?“
- Gezeigt werden meist nur die beeindruckenden Teile, aber in Wirklichkeit fehlt oft eine Qualitätsprüfung
- In Code, den ich verstehe, sehe ich Sicherheitsprobleme oder Fehler, aber bei einer 14-seitigen Arbeit aus einem Fachgebiet, das ich nicht kenne, frage ich mich nur: „Soll ich einfach glauben, dass sie gut ist?“
- Am Ende ist das, was ich kenne, offenbar auf einem Niveau, das nicht releasefähig ist, während das, was ich nicht kenne, nur großartig wirkt
- Dieser Widerspruch erscheint mir nicht plausibel
- Man kann sich auf Expertenbewertungen verlassen oder dem Modell komplexe Aufgaben geben, die sich direkt verifizieren lassen
  - Früher konnte man sich zum Beispiel Code für einen Sobel-Filter wie edgeDetect(image) schreiben lassen, und je nach Modell gelang das oder eben nicht
  - Kürzlich habe ich mir einen WebGL-Glow-Shader erstellen lassen, und es entstand tatsächlich eine funktionierende Demo, die mit einem von mir gebauten Modul kompatibel war
  - So etwas lässt sich sofort über Leistung und visuelle Korrektheit prüfen
  - Wenn das Modell sagt, es „kann“ etwas, heißt das allerdings nicht, dass es jedes Mal klappt, sondern eher, dass es wenigstens einmal erfolgreich war
- Die Modelle der neuesten Generation (Codex 5.1, Sonnet 4.5, Opus 4.5) werden zunehmend releasefähig
  - Mein Maßstab ist „wtfs per line“, und dieser Wert sinkt rapide
  - Ich habe mit Codex 5.1 mehrere Projekte ohne Probleme deployed (z. B. pine.town)
- Im hinteren Teil des Artikels werden die Stärken und Schwächen der Arbeit tatsächlich erwähnt
- Weil Modelle dazu neigen, den Nutzer zufriedenzustellen, liefern sie manchmal mit falscher Selbstsicherheit falsche Antworten
  - Wenn der Nutzer das nicht überprüft, kann er sich täuschen lassen
Interessant ist, dass die Interaktion mit AI bisher größtenteils auf Textboxen zentriert ist
- Das Auftauchen von Werkzeugen wie Claude Code oder OpenAI Codex war eine große Veränderung
- Es scheint enormer Wert darin zu liegen, wer die AI-Schnittstelle der Zukunft wirklich gut umsetzt
- Text bleibt effizient, weil die Informationsdichte hoch ist
  - Man kann ihn in Sekunden scrollend überfliegen, und die Tastatur ist weiterhin das produktivste Eingabewerkzeug
- Dass die Unix-CLI seit mehr als 50 Jahren textbasiert geblieben ist, hat denselben Hintergrund
  - Selbst Versuche mit strukturierten Daten wie bei PowerShell verlieren am Ende an Allgemeingültigkeit
  - Es ist der stärkere Ansatz, AI dazu zu bringen, bestehende menschliche Interfaces zu verstehen
- Die Fixierung darauf, eine völlig neue AI-UI zu finden, wirkt übertrieben
  - Im Kern sind für Menschen weiterhin Text, Tabellen und Graphen am leichtesten zu handhaben
- Die Welt ist ihrem Wesen nach multimodal
  - Ich denke, der nächste Schritt ist eine integrierte Schnittstelle, die Text und verschiedene Datentypen zusammenhängend verarbeitet
  - Besonders mit dem Fortschritt in der Robotik dürften auch 3D-Elemente wichtig werden
- Die Sprachschnittstelle von ChatGPT ist erstaunlich natürlich und eignet sich fürs Brainstorming womöglich sogar besser
Das Problem der „Halluzinationen“ besteht weiterhin
- Es gibt mehr subtile, menschlich wirkende Fehler, aber zugleich mischen sich immer noch fatale Fehler darunter
- Ich habe Claude gebeten, eine 20-seitige Kurzgeschichte zu schreiben, und es konnte nicht einmal grundlegende zeitliche Reihenfolge oder Figurenkonsistenz einhalten
- Neuere Modelle machen nicht nur einfache Fehler, sondern vertreten selbstsicher falsche Behauptungen und erfinden sogar nicht existierende Literaturangaben
Bei der Frage „Ist das Intelligenz auf PhD-Niveau?“ habe ich als Doktorand ein ähnliches Gefühl
- Gespräche mit aktuellen Modellen hinterlassen den Eindruck, mit einem Forscher im Fachgebiet zu sprechen
- Trotzdem halte ich menschliche natürliche Intelligenz und Motivation weiterhin für wichtig
- Beim Coden fühlt es sich an, als würde man mit zwei Entwicklern arbeiten — einer ist ein fähiger Mid-Level-Entwickler, der andere völlig daneben
  - Das Problem ist, dass beide gleich aussehen und man sie nicht unterscheiden kann
- Ich experimentiere oft damit, zwei SOTA-Modelle miteinander sprechen zu lassen
  - Kürzlich habe ich Gemini-3 und ChatGPT-5.1 zusammengeschaltet, und sie diskutierten das Problem einer neuralen Atrophie, die entstehen könnte, wenn Menschen das Denken aufgeben
  - Beeindruckend war, dass AI darüber nachdachte, Menschen absichtlich „zum Denken zu bringen“
- Schade ist, dass solche Meinungen auf HN oft grundlos heruntergevotet werden
Googles Fortschritt findet nicht nur in der Software, sondern auch in der Hardware statt
- Das Unternehmen führt sowohl Training als auch Inferenz auf eigener Hardware aus
- Früher lag Googles Stärke darin, generische Hardware zu nutzen, heute hat sich das in eine völlig andere Richtung entwickelt
Gemini 3 ist beeindruckend, wirkt aber immer noch, als bliebe es innerhalb der Grenzen der bestehenden Literatur
- Wenn man bei Mathematikproblemen nach neuen Ideen fragt, wiederholt es nur vorhandene Ergebnisse
- Auch Terrence Tao nutzt es bei mathematischen Problemen, aber eher als Hilfsmittel für Ideen denn für wirklich neue Resultate
- Ich habe selbst mit Thinking with 3 Pro experimentiert, und ich musste Hinweise praktisch spoon-feeden, damit es sich überhaupt meiner Idee annäherte
- Die Bewunderung könnte am Ende eher an den begrenzten Erwartungen der Nutzer liegen als an den Fähigkeiten des Modells
- Solche Modelle sind im Kern eher Bibliothekare des Wissens als Quellen neuer Ideen
- Echte kreative Exploration erfordert, probabilistisch weniger erforschte Räume zu erkunden und Ziele selbst zu setzen und zu bewerten
  - Die aktuelle Transformer-Architektur ist darauf ausgelegt, den wahrscheinlichsten Token auszuwählen und strebt daher im Kern eher Konsistenz als Neuheit an
  - Selbst bei hoher Temperature führt das eher zu geringerer Textkohärenz als zu Kreativität
  - Um dieses Problem zu lösen, braucht es adaptive Zielgenerierung und simulationsbasierte Bewertung, was rechnerisch sehr teuer ist
  - Deshalb glaube ich, dass die heutige LLM-Architektur echte Intelligenz nur schwer erreichen wird
- Wenn man eine benutzerdefinierte Anweisung hinzufügt, in Echtzeit das Web zu durchsuchen, hilft das bei der Suche nach aktuellen Informationen
GPT-3 wurde im Juni 2020 veröffentlicht, und ChatGPT war Version 3.5
- Das ist nur ein kleiner Fehler, aber ich wollte ihn korrekt festhalten
Dass sich „Human in the loop“ vom Menschen, der AI-Fehler korrigiert, zum Menschen, der AI dirigiert, entwickelt, höre ich schon lange
- Ich frage mich, ab wann das tatsächlich klar Realität sein wird
- Wahrscheinlich wird es keinen völlig eindeutigen Zeitpunkt geben
  - So wie ein Manager nicht einfach zu „jemandem, der nur Anweisungen gibt“ werden kann, wird es immer einen Anteil an Korrekturen geben
- Wenn man CLI-Tools direkt mit Agenten verbindet, fühlt es sich bereits so an, als sei dieser Wendepunkt überschritten
- Für mich persönlich fühlt es sich schon so an, als wäre ich bereits in der Phase des Dirigierens von AI angekommen
Ich frage mich, ob es sicher ist, Werkzeuge wie Claude Code oder Antigrav direkt auf dem lokalen System auszuführen
- Produkte auf VS-Code-Basis sind wegen ihrer Beschränkungen beim Workspace-Zugriff sicherer, während Terminals wie Warp über Allow-/Block-Listen für Befehle gesteuert werden
- Manche Beschränkungen lassen sich per Flag aufheben, aber das ist nur absichtlich möglich
- Ich führe solche Dinge grundsätzlich nur in einem Podman-Dev-Container aus
- Ein Werkzeug, das zur Lösung dieses Problems entwickelt wurde, ist Leash — ein Open-Source-Projekt für Sicherheitskontrollen
- Manche sagen einfach nur „Yolo“ und führen es trotz des Risikos aus
- Tatsächlich lassen die meisten Nutzer es direkt lokal laufen

Drei Jahre von GPT-3 bis Gemini 3

Das Erscheinen von Gemini 3 und der Wandel in drei Jahren

Antigravity und agentische KI

Gemini 3 als kollaborative KI

Forschungsleistung und die Bewertung „PhD-Niveau“

Der Übergang zum digitalen Begleiter

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare