5 Punkte von GN⁺ 2025-11-26 | 1 Kommentare | Auf WhatsApp teilen
  • Googles Gemini 3 hat sich über einen einfachen dialogorientierten Chatbot hinaus zu einer digitalen KI-Begleiterin entwickelt, die reale Aufgaben wie Code schreiben, im Web navigieren und Dateien bearbeiten ausführt
  • Das gleichzeitig vorgestellte Antigravity ist ein agentenbasiertes Tool, das auf den Computer des Nutzers zugreift, eigenständig Programme schreibt und über ein Inbox-System Freigaben oder Hilfe anfordert
  • Gemini 3 erledigt auf Anweisung des Nutzers sogar den Aufbau von Websites, Datenanalysen und das Schreiben von Fachartikeln und zeigt dabei Forschungsfähigkeiten auf PhD-Niveau
  • Fehler gibt es weiterhin, sie bewegen sich aber eher auf dem Niveau von Unterschieden im Urteilsvermögen oder Verständnis; damit ähnelt das System stärker einem „KI-Teammitglied“, das mit Menschen zusammenarbeitet
  • Der Text betont den „Übergang vom Zeitalter der Chatbots zum Zeitalter digitaler Begleiter“: Menschen korrigieren nicht mehr nur Fehler der KI, sondern werden zunehmend zu Managern, die die Arbeit der KI steuern

Das Erscheinen von Gemini 3 und der Wandel in drei Jahren

  • Rund drei Jahre nach der Einführung von ChatGPT zeigt Google Gemini 3, wie schnell sich KI entwickelt
    • In der Ära von GPT-3.5 im Jahr 2022 lag das Niveau noch beim einfachen Erzeugen von Absätzen oder Gedichten
    • 2025 ist Gemini 3 bereits in der Lage, interaktive Spiele direkt zu coden und zu gestalten
  • Gemini 3 erzeugte auf Anfrage des Nutzers ein tatsächlich spielbares Spiel mit dem Titel „Candy-Powered FTL Starship Simulator“
    • Das zeigt die Entwicklung von einer Phase, in der KI nur Text erklärte, hin zu einer Phase, in der sie Code und Interface direkt umsetzt

Antigravity und agentische KI

  • Google stellte zusammen mit Gemini 3 ein Entwickler-Tool namens Antigravity vor
    • Ähnlich wie Claude Code oder OpenAI Codex ist es ein System, das auf den Computer des Nutzers zugreift und selbstständig Code schreibt
  • Antigravity führt ein Inbox-Konzept ein: Wenn die KI während der Arbeit Freigaben oder Hilfe benötigt, sendet sie dem Nutzer eine Benachrichtigung
  • Der Nutzer gibt Anweisungen auf Englisch, und die KI setzt sie in Code um
    • Als Beispiel analysierte sie die Newsletter-Dateien des Autors und erstellte automatisch eine Website, die KI-bezogene Prognosen zusammenfasst
    • Die KI führte Websuche, Code-Ausführung und Browser-Tests durch und verpackte das Ergebnis so, dass es auf Netlify deployt werden konnte

Gemini 3 als kollaborative KI

  • Gemini 3 teilt seinen Fortschritt transparent, indem es während der Arbeit Nutzerfreigaben anfordert
    • Der Nutzer prüft und überarbeitet die Vorschläge der KI und arbeitet so mit ihr zusammen
    • Dieser Prozess fühlt sich eher nach „KI-Management“ an
  • Die KI ist nicht perfekt, aber ihre Fehler liegen eher bei Unterschieden im Urteilsvermögen oder Missverständnissen bei der Interpretation von Absichten; das bisherige Problem der Halluzinationen ist fast verschwunden
  • Die Zusammenarbeit mit Gemini 3 ähnelt dem „Management eines Teammitglieds“ und geht deutlich über das bloße Eingeben eines Prompts hinaus

Forschungsleistung und die Bewertung „PhD-Niveau“

  • Gemini 3 übernahm Aufgaben wie die Analyse von Forschungsdatensätzen und das Schreiben eines Fachartikels
    • Es stellte eine alte Crowdfunding-Datendatei wieder her, bereinigte sie und führte neue Analysen durch
    • Anschließend schrieb es einen 14-seitigen Fachartikel zum Thema „Gründung und Geschäftsstrategie“
  • Die KI entwickelte eigenständige Hypothesen, führte statistische Analysen durch und erzeugte eigene Metriken zur Messung der Originalität von Ideen
  • Das Ergebnis erreichte die Qualität eines Graduiertenstudenten, auch wenn einzelne statistische Methoden und die theoretische Ausarbeitung noch Schwächen zeigten
    • Mit zusätzlichen Anweisungen verbesserte sich die Qualität deutlich
    • Der Autor bewertet es so, dass „Intelligenz auf PhD-Niveau nicht mehr fern ist“

Der Übergang zum digitalen Begleiter

  • Gemini 3 ist eine partnerartige KI, die denkt und handelt, und für Milliarden Menschen weltweit zugänglich
  • Es gibt keine Anzeichen für eine Verlangsamung der KI-Entwicklung; stattdessen rücken der Aufstieg agentischer Modelle und die Bedeutung von Kompetenz im Management von KI in den Vordergrund
  • Der Autor beschreibt dies als „Übergang vom Zeitalter der Chatbots zum Zeitalter digitaler Begleiter“
    • Menschen sind nun nicht mehr nur dafür da, Fehler der KI zu korrigieren, sondern werden zu Managern, die die Arbeit der KI dirigieren
  • Zum Schluss demonstrierte Gemini 3 kreative Fähigkeiten jenseits von Text, etwa indem es allein mit Code ein Coverbild für einen Blog erzeugte
  • Allerdings ist Vorsicht geboten: Wer einer KI Zugriff auf den eigenen Computer gibt, geht damit auch Sicherheitsrisiken ein

1 Kommentare

 
GN⁺ 2025-11-26
Hacker-News-Kommentare
  • Jedes Mal, wenn ich solche Artikel sehe, fehlt für mich immer ein Teil — nämlich die Frage: „Ist es gut, ist es korrekt?“

    • Gezeigt werden meist nur die beeindruckenden Teile, aber in Wirklichkeit fehlt oft eine Qualitätsprüfung
    • In Code, den ich verstehe, sehe ich Sicherheitsprobleme oder Fehler, aber bei einer 14-seitigen Arbeit aus einem Fachgebiet, das ich nicht kenne, frage ich mich nur: „Soll ich einfach glauben, dass sie gut ist?“
    • Am Ende ist das, was ich kenne, offenbar auf einem Niveau, das nicht releasefähig ist, während das, was ich nicht kenne, nur großartig wirkt
    • Dieser Widerspruch erscheint mir nicht plausibel
    • Man kann sich auf Expertenbewertungen verlassen oder dem Modell komplexe Aufgaben geben, die sich direkt verifizieren lassen
      • Früher konnte man sich zum Beispiel Code für einen Sobel-Filter wie edgeDetect(image) schreiben lassen, und je nach Modell gelang das oder eben nicht
      • Kürzlich habe ich mir einen WebGL-Glow-Shader erstellen lassen, und es entstand tatsächlich eine funktionierende Demo, die mit einem von mir gebauten Modul kompatibel war
      • So etwas lässt sich sofort über Leistung und visuelle Korrektheit prüfen
      • Wenn das Modell sagt, es „kann“ etwas, heißt das allerdings nicht, dass es jedes Mal klappt, sondern eher, dass es wenigstens einmal erfolgreich war
    • Die Modelle der neuesten Generation (Codex 5.1, Sonnet 4.5, Opus 4.5) werden zunehmend releasefähig
      • Mein Maßstab ist „wtfs per line“, und dieser Wert sinkt rapide
      • Ich habe mit Codex 5.1 mehrere Projekte ohne Probleme deployed (z. B. pine.town)
    • Im hinteren Teil des Artikels werden die Stärken und Schwächen der Arbeit tatsächlich erwähnt
    • Weil Modelle dazu neigen, den Nutzer zufriedenzustellen, liefern sie manchmal mit falscher Selbstsicherheit falsche Antworten
      • Wenn der Nutzer das nicht überprüft, kann er sich täuschen lassen
  • Interessant ist, dass die Interaktion mit AI bisher größtenteils auf Textboxen zentriert ist

    • Das Auftauchen von Werkzeugen wie Claude Code oder OpenAI Codex war eine große Veränderung
    • Es scheint enormer Wert darin zu liegen, wer die AI-Schnittstelle der Zukunft wirklich gut umsetzt
    • Text bleibt effizient, weil die Informationsdichte hoch ist
      • Man kann ihn in Sekunden scrollend überfliegen, und die Tastatur ist weiterhin das produktivste Eingabewerkzeug
    • Dass die Unix-CLI seit mehr als 50 Jahren textbasiert geblieben ist, hat denselben Hintergrund
      • Selbst Versuche mit strukturierten Daten wie bei PowerShell verlieren am Ende an Allgemeingültigkeit
      • Es ist der stärkere Ansatz, AI dazu zu bringen, bestehende menschliche Interfaces zu verstehen
    • Die Fixierung darauf, eine völlig neue AI-UI zu finden, wirkt übertrieben
      • Im Kern sind für Menschen weiterhin Text, Tabellen und Graphen am leichtesten zu handhaben
    • Die Welt ist ihrem Wesen nach multimodal
      • Ich denke, der nächste Schritt ist eine integrierte Schnittstelle, die Text und verschiedene Datentypen zusammenhängend verarbeitet
      • Besonders mit dem Fortschritt in der Robotik dürften auch 3D-Elemente wichtig werden
    • Die Sprachschnittstelle von ChatGPT ist erstaunlich natürlich und eignet sich fürs Brainstorming womöglich sogar besser
  • Das Problem der „Halluzinationen“ besteht weiterhin

    • Es gibt mehr subtile, menschlich wirkende Fehler, aber zugleich mischen sich immer noch fatale Fehler darunter
    • Ich habe Claude gebeten, eine 20-seitige Kurzgeschichte zu schreiben, und es konnte nicht einmal grundlegende zeitliche Reihenfolge oder Figurenkonsistenz einhalten
    • Neuere Modelle machen nicht nur einfache Fehler, sondern vertreten selbstsicher falsche Behauptungen und erfinden sogar nicht existierende Literaturangaben
  • Bei der Frage „Ist das Intelligenz auf PhD-Niveau?“ habe ich als Doktorand ein ähnliches Gefühl

    • Gespräche mit aktuellen Modellen hinterlassen den Eindruck, mit einem Forscher im Fachgebiet zu sprechen
    • Trotzdem halte ich menschliche natürliche Intelligenz und Motivation weiterhin für wichtig
    • Beim Coden fühlt es sich an, als würde man mit zwei Entwicklern arbeiten — einer ist ein fähiger Mid-Level-Entwickler, der andere völlig daneben
      • Das Problem ist, dass beide gleich aussehen und man sie nicht unterscheiden kann
    • Ich experimentiere oft damit, zwei SOTA-Modelle miteinander sprechen zu lassen
      • Kürzlich habe ich Gemini-3 und ChatGPT-5.1 zusammengeschaltet, und sie diskutierten das Problem einer neuralen Atrophie, die entstehen könnte, wenn Menschen das Denken aufgeben
      • Beeindruckend war, dass AI darüber nachdachte, Menschen absichtlich „zum Denken zu bringen“
    • Schade ist, dass solche Meinungen auf HN oft grundlos heruntergevotet werden
  • Googles Fortschritt findet nicht nur in der Software, sondern auch in der Hardware statt

    • Das Unternehmen führt sowohl Training als auch Inferenz auf eigener Hardware aus
    • Früher lag Googles Stärke darin, generische Hardware zu nutzen, heute hat sich das in eine völlig andere Richtung entwickelt
  • Gemini 3 ist beeindruckend, wirkt aber immer noch, als bliebe es innerhalb der Grenzen der bestehenden Literatur

    • Wenn man bei Mathematikproblemen nach neuen Ideen fragt, wiederholt es nur vorhandene Ergebnisse
    • Auch Terrence Tao nutzt es bei mathematischen Problemen, aber eher als Hilfsmittel für Ideen denn für wirklich neue Resultate
    • Ich habe selbst mit Thinking with 3 Pro experimentiert, und ich musste Hinweise praktisch spoon-feeden, damit es sich überhaupt meiner Idee annäherte
    • Die Bewunderung könnte am Ende eher an den begrenzten Erwartungen der Nutzer liegen als an den Fähigkeiten des Modells
    • Solche Modelle sind im Kern eher Bibliothekare des Wissens als Quellen neuer Ideen
    • Echte kreative Exploration erfordert, probabilistisch weniger erforschte Räume zu erkunden und Ziele selbst zu setzen und zu bewerten
      • Die aktuelle Transformer-Architektur ist darauf ausgelegt, den wahrscheinlichsten Token auszuwählen und strebt daher im Kern eher Konsistenz als Neuheit an
      • Selbst bei hoher Temperature führt das eher zu geringerer Textkohärenz als zu Kreativität
      • Um dieses Problem zu lösen, braucht es adaptive Zielgenerierung und simulationsbasierte Bewertung, was rechnerisch sehr teuer ist
      • Deshalb glaube ich, dass die heutige LLM-Architektur echte Intelligenz nur schwer erreichen wird
    • Wenn man eine benutzerdefinierte Anweisung hinzufügt, in Echtzeit das Web zu durchsuchen, hilft das bei der Suche nach aktuellen Informationen
  • GPT-3 wurde im Juni 2020 veröffentlicht, und ChatGPT war Version 3.5

    • Das ist nur ein kleiner Fehler, aber ich wollte ihn korrekt festhalten
  • Dass sich „Human in the loop“ vom Menschen, der AI-Fehler korrigiert, zum Menschen, der AI dirigiert, entwickelt, höre ich schon lange

    • Ich frage mich, ab wann das tatsächlich klar Realität sein wird
    • Wahrscheinlich wird es keinen völlig eindeutigen Zeitpunkt geben
      • So wie ein Manager nicht einfach zu „jemandem, der nur Anweisungen gibt“ werden kann, wird es immer einen Anteil an Korrekturen geben
    • Wenn man CLI-Tools direkt mit Agenten verbindet, fühlt es sich bereits so an, als sei dieser Wendepunkt überschritten
    • Für mich persönlich fühlt es sich schon so an, als wäre ich bereits in der Phase des Dirigierens von AI angekommen
  • Ich frage mich, ob es sicher ist, Werkzeuge wie Claude Code oder Antigrav direkt auf dem lokalen System auszuführen

    • Produkte auf VS-Code-Basis sind wegen ihrer Beschränkungen beim Workspace-Zugriff sicherer, während Terminals wie Warp über Allow-/Block-Listen für Befehle gesteuert werden
    • Manche Beschränkungen lassen sich per Flag aufheben, aber das ist nur absichtlich möglich
    • Ich führe solche Dinge grundsätzlich nur in einem Podman-Dev-Container aus
    • Ein Werkzeug, das zur Lösung dieses Problems entwickelt wurde, ist Leash — ein Open-Source-Projekt für Sicherheitskontrollen
    • Manche sagen einfach nur „Yolo“ und führen es trotz des Risikos aus
    • Tatsächlich lassen die meisten Nutzer es direkt lokal laufen