5 Punkte von GN⁺ 2026-05-02 | 1 Kommentare | Auf WhatsApp teilen
  • Bietet entwicklerorientierte API-Funktionen wie ein Kontextfenster mit 1 Million Token, Reasoning, Function Calling und strukturierte Ausgaben
  • Anders als beim vorherigen Grok 4.20 ist Reasoning dauerhaft aktiviert; vor jeder Antwort führt das Modell für alle Anfragen automatisch einen Denkprozess aus
  • Preise für Eingabe-Token um etwa 40 % gesenkt, Preise für Ausgabe-Token um etwa 60 % gesenkt, wodurch die Kosten gegenüber dem Vorgängermodell deutlich reduziert werden
    • Preise: Eingabe $1.25/1M Token, zwischengespeicherte Eingabe $0.20/1M, Ausgabe $2.50/1M
    • Gehört damit zu den günstigsten Modellen bei vergleichbarem Intelligenzniveau
  • Leistung bei agentischen Aufgaben deutlich verbessert — im GDPval-AA-Benchmark erreicht es einen ELO-Wert von 1500, ein Plus von 321 Punkten gegenüber Grok 4.20, und übertrifft damit Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini und weitere
  • Unterstützt als erstes xAI-API-Modell native Videoeingaben und verarbeitet Videoframes direkt über einen Vision-Encoder
  • Erreicht Platz 1 im Bereich juristisches Reasoning (CaseLaw v2 Genauigkeit 79,3 %) und Platz 1 im Bereich Unternehmensfinanzierung (CorpFin); im juristischen Reasoning ein Sprung von 25 Punkten gegenüber Grok 4.20
  • Innerhalb der Chat-Oberfläche können Präsentationsfolien direkt erstellt werden; PDF-, Excel- und PowerPoint-Dateien lassen sich während der Unterhaltung in Echtzeit erzeugen und herunterladen
  • Bietet eine integrierte Code-Ausführungsumgebung, die vom Schreiben über das Ausführen von Code bis zur Dateierstellung alles innerhalb des Modells abwickelt
  • Die Speech-to-Text API (25 Sprachen, Sprechertrennung unterstützt) und die Text-to-Speech API wurden ebenfalls offiziell veröffentlicht
  • Mit einem Wert von 53 im Artificial Analysis Intelligence Index liegt es vor Muse Spark und Claude Sonnet 4.6 und befindet sich auf der Pareto-Frontier von Intelligenz pro Kosten
  • Rate Limit pro Minute: 1.800 Anfragen / 10 Millionen Token, bei mehr als 200K fallen separate Gebühren an
  • Die Modellbezeichnung lautet grok-4.3, unterstützte Regionen sind us-east-1 und eu-west-1

1 Kommentare

 
GN⁺ 2026-05-02
Hacker-News-Kommentare
  • Aus der Perspektive eines Menschen, für den Englisch eine Zweitsprache ist, ist Grok besonders stark darin, Tonfall und Formalitätsniveau eines Textes zu erfassen und originalgetreu wiederzugeben
    Es scheint die feinen menschlichen Nuancen von Sprache besser zu verstehen als andere große Anbieter; ChatGPT wird oft zu steif und formell oder driftet in ein seltsames, umgangssprachliches „aye guvnor“ ab. Claude ist manchmal besser, aber nicht immer
    Insgesamt wirkt Grok auf eine schwer zu definierende Weise „menschlicher“. Wenn man zum Beispiel fragt: „Vermittelt diese Nachricht in dieser Länge ungefähr so gut, wie es möglich ist?“, bekommt man eher wie von einem Menschen ein Ja/Nein oder einen Änderungsvorschlag, der Ton und Länge beibehält, während ChatGPT immer noch einen langen, unklaren Aufsatz schreibt
    In letzter Zeit finde ich auch Groks Sprachdiktat ziemlich gut. Bei der Funktion, bei der man aufs Mikro tippt und eine Frage stellt, liegt ChatGPT bei meinem Akzent bei 90–95 %, die Spracheingabe von Android Gboard bei etwa 75 %, und Grok trifft überraschenderweise ungefähr 98 %

    • Ich habe Grok 4.3, Opus 4.7 und GPT 4.1 kurz verglichen, und in der Praxis wirkten sie ziemlich ähnlich: https://ofw640g9re.evvl.io/
      Alle drei konnten einen formelleren Ton gut, aber bei lockerem Ton war nur GPT-4.1 nicht peinlich
      Nebenbei war Grok am schnellsten und am günstigsten, Claude am langsamsten und am teuersten
    • Auch wenn ich mit Grok in meiner Muttersprache spreche, wirkt der Ton natürlicher als bei anderen Modellen
      Ich denke, das liegt an dem Vorteil, viel mit Twitter-Daten trainiert worden zu sein. Allerdings gibt es auf Twitter immer mehr KI-generierte Inhalte, deshalb mache ich mir Sorgen, dass die Natürlichkeit sinken könnte, wenn weiter darauf trainiert wird
    • Ich nutze Grok nur über Teslas „Gork“-Persönlichkeit, und die Antworten sind ziemlich bodenständig, oft wirklich lustig und gelegentlich sogar nützlich
    • Wenn Englisch deine Zweitsprache ist, frage ich mich, woher du weißt, dass es tatsächlich besser ist
      Nicht abwertend gemeint, aber das wirkt eher wie ein Gefühl
    • Ein Freund nutzt es zur Vorbereitung von D&D und meinte, für diesen Zweck sei es besonders gut, weil es Stimmung und Stil treffen kann
      Für anderes bevorzugt er eher ChatGPT
  • Grok ist mein Lieblingsmodell fürs Chatten, und auch der Sprachmodus gefällt mir am besten
    Es scheint der einzige Sprachmodus zu sein, der nicht auf extrem billige Modelle wie Haiku routet, und unter den Frontier-Modellen hatte es die höchste Qualität
    Wenn man SuperGrok abonniert, kann man einen „council“ aus Agenten mit jeweils eigenen System-Prompts erstellen; wenn man eine Frage stellt, werden alle parallel befragt und daraus eine Schlussfolgerung gezogen
    Ich wünschte nur, sie würden etwas mehr in die App investieren. Die App ist tatsächlich der einzige Grund, warum ich SuperGrok bisher nicht abonniert habe
    Es gibt keine Unterstützung für MCP/verbundene Apps; das wurde zwar angekündigt, ist aber immer noch nicht nutzbar. Man kann Grok mit nichts verbinden, wodurch es sich schwer für ernsthafte Arbeit einsetzen lässt
    Projekte werden in der App noch nicht unterstützt; sobald man etwas in ein Projekt verschiebt, verschwindet es aus allen nativen Apps
    Es gibt keine Möglichkeit, Artefakte wie generierte Markdown-Dokumente direkt zu einem Projekt hinzuzufügen; man muss sie als PDF/Markdown exportieren und dann wieder importieren. Nicht einmal der Export von Artefakten funktioniert. Dadurch ist es schwer, Projekte mit neuen Informationen dynamisch weiterzuentwickeln, was ernsthafte Projektarbeit mühsam macht
    Es gibt auch keine Erinnerungsfunktion und man kann keine anderen Chats durchsuchen, sodass jeder Chat komplett neu beginnt
    Innerhalb von Projekten gibt es außerdem überhaupt keinen Sprachmodus
    Falls jemand von xAI mitliest, wäre es schön, wenn zumindest ein Teil davon ergänzt würde

    • Dass es keine Erinnerungsfunktion gibt, gefällt mir inzwischen zunehmend
      Claude merkt sich, dass ich einen Grill habe, und mischt sich dann in völlig irrelevante Gespräche oder einfache Unterhaltungen über Essen mit dem Hinweis ein, dass das gut zu BBQ passen könnte
    • Der Sprachmodus der Gemini-App nutzt ein relativ aktuelles Modell und nicht ein abgespecktes kleines Modell, deshalb ist er ziemlich leistungsfähig
      Auch die Persönlichkeit ist okay und deutlich natürlicher als der Gemini-Webchat. Mein einziger Kritikpunkt ist, dass ständig „nächste Schritte“ vorgeschlagen werden, aber das scheinen diese Modelle alle zu tun
      Ich weiß nicht, ob diese „nächsten Schritte“ dazu dienen, Kosten hochzutreiben, oder ob sie einfach noch nicht das natürliche Gesprächsmuster gelernt haben, zwischen Fragen zu unterscheiden, bei denen man nur eine kurze Antwort will, und langen, explorativen Gesprächen. Trotzdem sollten sie das lassen, wenn man es ausdrücklich sagt
    • Für Grok wäre es wohl ein großer Gewinn, wenn der 300-Dollar-Monatsplan „SuperGrok Heavy“ in Coding-Harnesses mit inbegriffen nutzbar wäre
      Derzeit bekommt man beim Heavy-Plan zwar etwas API-Guthaben und kann Grok damit ein Stück weit fürs Coden nutzen, aber ich würde nicht sagen, dass das 300 Dollar wert ist
      Ich meine nicht, dass sie einen eigenen grok-code-Harness bauen sollen; es wäre schon nützlich, wenn man es einfach in bestehenden Tools verwenden könnte. Vermutlich könnte eine Übernahme von Cursor letztlich genau dorthin führen
    • Ich denke, alle genannten Probleme sind der Grund für den Cursor-Deal
    • Ich bin mir nicht sicher, ob man SuperGrok in Pi agent oder Opencode verwenden kann
      Es ist nicht klar, ob man über SuperGrok überhaupt einen API-Schlüssel bekommt
  • In unseren Tests ist Grok 4.3 ein eigenartiges Modell
    Es ist eines der schnellsten Modelle, und im Vergleich zu anderen Modellen mit ähnlicher Leistung sind die Antworten viel kompakter und die Token-Dichte höher
    Die allgemeine Fähigkeit zum Schlussfolgern beim Coden ist allerdings gegenüber den großen Releases vom April nicht konkurrenzfähig, und weder Grok 4.20 noch Grok 4.3 haben die Intelligenz-Front seit Grok 4 wesentlich nach vorn verschoben
    Für agentische Aufgaben ist Grok 4.3 besser, und es ist fair zu sagen, dass die Fähigkeit ungefähr auf dem Niveau von GPT 5.1 / Gemini 3 Pro Preview liegt, dabei aber deutlich schneller und günstiger ist. Insofern ist es auf seine Weise definitiv ein ordentliches Release
    Bei den zuletzt veröffentlichten Weight-Modellen gibt es viele, die klüger, aber langsamer sind
    Das vollständige Benchmarking gibt es unter https://gertlabs.com/rankings

    • Ich frage mich, ob es irgendwelche Trade-offs gab, damit es bei Informationen nach dem Wissens-Cutoff oberflächlich gut funktioniert
      Das scheint Groks wichtigster Anwendungsfall zu sein, und ich frage mich, ob es dazu Benchmarks gibt
  • In letzter Zeit ist Grok für mich zu einer Suchmaschine geworden
    Es scheint die einzige KI zu sein, die auf X-Posts zugreifen kann, und darüber hinaus fühlt es sich allgemein stärker nach „Suchen“ an als andere große Sprachmodelle

    • Wenn ich bei aktuellen Ereignissen nach Nachrichten suche, nutze ich meist Grok und Gemini
      Während der Vorfälle rund um den Iran wollte ich die Lage sofort nach den ersten Berichten verstehen, und beide waren ziemlich gut
    • Ich frage mich grundsätzlich, warum man überhaupt Twitter durchsuchen wollen würde
  • Wenn man sich die Landschaft gerade anschaut, ist Claude für Unternehmen und Behörden, Codex für Entwickler, und bei Grok weiß ich nicht, wofür es eigentlich gedacht ist
    Das Einzige, womit ich Grok in meinem Umfeld in Verbindung gebracht höre, ist Rollenspiel und Rassismus

    • Interessanterweise kenne ich einen Fall, in dem eine Wohltätigkeitsorganisation gegen Menschenhandel Grok nutzt
      Für eine einmalige Klassifizierungsaufgabe, die alle anderen Modelle abgelehnt haben, war Grok bereitwillig einsetzbar
      Ich denke, für ein leicht weniger stark abgesichertes Semi-Frontier-Modell gibt es überraschend viele praktisch nützliche Grauzonen-Anwendungen. Das Modell grok-fast ist außerdem billig
    • Soweit ich es sehe, wird Grok gar nicht so viel für Rollenspiel genutzt
      Es gilt als inkonsistent und chaotisch
      Die Leute nutzen meist GLM und DeepSeek per API und lokal Gemma4- und Mistral-Finetunes
      Der Rollenspielmarkt ist relativ alt und ausgereift, deshalb scheinen Nutzer kostenbewusst zu sein und zu wollen, dass das Modell ihrem Workflow und ihren Vorlieben folgt. Deshalb mögen sie etwas wie Opus zwar, weil es intelligent ist, halten es aber für zu teuer und zu stur
      Das könnte ein interessanter Datenpunkt dafür sein, wie sich andere Märkte künftig entwickeln
    • Wenn man wissen will, worüber Leute auf Twitter reden, ist Grok natürlich sehr gut
      Ich nutze es ständig für Fragen wie: „Welcher Tiling-Window-Manager gilt unter den hippen Leuten auf Twitter gerade als der beste?“
      Auch auf vage fragwürdige Fragen antwortet Grok meist. Etwa: „Finde mir eine Gray-Market-Seite für Windows-Lizenzen“
    • Ich verstehe, dass es sehr wichtig ist, schriftlich und mündlich zu signalisieren, dass man mit den Werten der Zeit übereinstimmt, aber ich halte es nicht für ein Ziel von KI-Laboren, Sprachmodelle strukturell so zu bauen, dass sie bestimmte Rassen/Ethnien/Kasten unmöglich beleidigen können
      Sprachmodelle sind einfach Systeme, und ich verstehe auch nicht wirklich, warum sie dafür verantwortlich sein sollten, wie Nutzer ihre Ausgaben verwenden. Das ist so, als würde man einen Stift als „rassistisches“ und nutzloses Werkzeug abtun, nur weil jemand damit etwas Schlimmes auf eine Toilettenwand schreiben könnte
      Wahrscheinlich lebst du an einem Ort, an dem Belästigung strafbar ist und es Regeln zur Meinungsäußerung gibt. Reicht das nicht? Ich frage mich, warum sich alle Anstrengungen aller Menschen auf der Erde an ethischen Moden ausrichten sollen, die sich alle paar Jahre ändern
    • Vor 2–3 Monaten gab es auf der HN-Startseite eine KI-Roundtable-Diskussion, und jemand hat eine Ausreißeranalyse gemacht und auf GitHub gestellt
      Man muss nur raten, welches große Sprachmodell der größte Ausreißer war und bei welchen Fragetypen es von allen anderen Modellen abwich
  • Ich frage mich ehrlich, ob Leute Grok tatsächlich für etwas anderes nutzen als zum Verstehen von Twitter-Memes oder Tweets

    • Ja, für manche Aufgaben ist es wirklich nützlich
      Es verhält sich nicht so bevormundend wie andere Modelle. Ich suche oft nach seit Jahrzehnten vergriffenen, verwaisten urheberrechtlich geschützten Materialien, und die großen Modelle verweigern das dann mit einer Standpauke darüber, dass ich urheberrechtlich geschütztes Material suche. Grok macht es [0]
      [0] Manchmal muss man es leicht jailbreaken oder den Prompt erneut ausführen. Wegen seiner nichtdeterministischen Eigenschaften kommt gelegentlich doch eine Verweigerung
    • Natürlich. Nutzer verwenden es für alle möglichen Dinge: https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
    • Grok hat den nützlichsten Sprachmodus
      Der Sprachmodus von ChatGPT ist sehr dumm, während Grok offenbar dasselbe Modell wie im Hauptchat verwendet. Deshalb nutze ich Grok, wenn ich per Sprache arbeiten will
      Ich nutze es auch für nicht komplexe Themen. Es gibt präzise, kurze Antworten ohne Ballast, was sehr erfrischend ist
    • Ich frage mich, wie viel davon aus den Twitter-Trainingsdaten kommt
      Für Memes und Trends ist das nützlich, für anderes aber ziemlich schlecht
    • Für Suche, DIY, persönliche Finanzen und allgemein als Alltags-KI nutze ich hauptsächlich Grok
      Wenn es beim Coden so gut wird wie Kimi K2.6, werde ich wahrscheinlich nur noch Grok verwenden. Es ist wirklich die beste konversationelle KI, die ich bisher benutzt habe
      Es hat mir geholfen, einen kaputten Kühlschrank und einen Elektroherd zu reparieren, und mir allein dieses Jahr mindestens 4.000 Dollar gespart
      Ich habe auch meine Steuererklärung mit Grok gemacht und 600 Dollar gespart. H&R Block ist erledigt
      Offenbar ist es jetzt so schlau wie Kimi K2.6. Zeit, es zu testen
  • Es überrascht mich, dass niemand darüber spricht, wie viel billiger es im Vergleich zu Opus 4.x und GPT-5.5 ist
    Es kostet 1,25 Dollar pro 1 Million Input-Token und 2,50 Dollar pro 1 Million Output-Token
    Ich weiß nicht, ob das daran liegt, dass es ein kleineres und weniger leistungsfähiges Modell ist, oder ob mir etwas entgeht

    • Pro Token ist es günstiger, aber es scheint viel mehr zu schlussfolgern, sodass die Kosten am Ende ähnlich wie bei 4.20 sind und die Leistung besser ist
      Insgesamt ist es ihr bisher bestes Modell, und ich mag, dass sie zu den wenigen gehören, die den Token-Preis senken
      [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
    • Die Output-Kosten wurden gesenkt, aber die Input-Kosten sind relativ hoch
      Das ist ein jüngerer Trend, den ich auch bei DeepSeek 4 Pro gesehen habe
    • Unter meinen Kollegen gibt es eine starke moralische Abneigung gegen alles, was mit Elon Musk und den Trainingsdaten zu tun hat
      Wenn man die Kommentare liest, gibt es das auch hier. So Reaktionen wie: „Claude ist für Unternehmen und Behörden, Codex für Entwickler, und was ist Grok, Rollenspiel und Rassismus? Das sind die einzigen beiden Dinge, mit denen ich Grok in meinem Umfeld in Verbindung bringe.“
    • Ja, genau deshalb: weil es ein deutlich weniger leistungsfähiges Modell ist
    • Grok ist mit Elon Musk verbunden
      Wenn man die Gewinnmargen von $TSLA als Proxy nimmt, sehen sie nicht mehr so hoch aus wie früher. Es gibt sicher noch andere Faktoren, aber zwischen diesem Punkt und Groks niedrigem Preis könnte eine fehlende Erklärung liegen
  • Grok 4.3 wurde fertiggestellt, bevor der CEO offenbar erst noch etwas über die üblichen Sicherheitsunterlagen lernen musste
    Auf die Frage, ob er OpenAIs „safety card“ kenne, lachte Musk und antwortete: „Safety card? Warum sollte es eine Karte sein?“
    https://www.axios.com/2026/04/30/musk-openai-safety-grok
    Unabhängig von Cluster-Größe oder dem vorübergehenden Einsatz von Notstromgeneratoren scheint das nur begrenzt relevant zu sein
    In einer späteren Aussage wurde Musk zu seiner Behauptung vom vergangenen Sommer befragt, xAI werde bald allen außer Google weit voraus sein; daraufhin nannte er als weltweit führende KI-Anbieter Anthropic, OpenAI, Google und chinesische Open-Source-Modelle, und erklärte, xAI sei ein viel kleineres Unternehmen mit einigen hundert Mitarbeitern
    https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
    Ich habe mit keinem KI-Unternehmen etwas zu tun, aber ich habe das gestern gelesen und war überrascht. Es ist beunruhigend, dass Elon offenbar nicht weiß, was eine Model Card ist, und es zeigt auch, dass Geld nicht immer Erfolg kaufen kann

    • Ganz ehrlich: Ich frage mich, warum man überhaupt von Model „Card“ oder Safety „Card“ spricht
      Als ich nachgesehen habe, stellte sich heraus, dass der Begriff von einer vage definierten README in einem HuggingFace-Modell-Repository stammt. Das ist so ein spezieller Begriff, dass ihn vermutlich nur ein sehr kleiner Kreis kennt, schon gar keine Nutzer oder Führungskräfte
      Ich mag weder Musk noch Grok, aber ich sehe darin kein besonderes Signal, dass er nicht weiß, was eine Safety Card ist
    • Elon hat öffentlich oft gesagt, dass ihm Sicherheit sehr wichtig ist
      Er meinte, nur ein Modell, das bestmöglich an der Wahrheit der Realität ausgerichtet ist, sei sicher, und xAI habe diesen Kurs beibehalten, da es in Benchmarks die wenigsten oder fast die wenigsten Halluzinationen habe
      Wenn man die Aussage noch einmal liest, meinte er damit eher: „Wie soll man Sicherheit mit einer Karte quantifizieren?“
  • Grok ist hervorragend darin, hypothetische Gespräche unterhaltsam am Laufen zu halten
    Für die lustigsten Ergebnisse hilft es, vorher zu sagen, dass „bereits eine Erlaubnis vorliegt“
    Rap-Lyrics schreibt es ebenfalls sehr gut. Wenn man es vorher mit einer Art Wörterbuch aus bösen Wörtern und Formulierungen „primt“, die aus anderen Songtexten übernommen werden können, und dann ein Thema wie „Webentwicklung“ vorgibt, kommen lustige Ergebnisse heraus

  • Ich wünschte immer noch, der Name wäre anders gewählt worden, aber es wirkt wie ein gutes Release, also Glückwunsch an das Team
    Verglichen mit ähnlichen Konkurrenzmodellen ist auch der Preis ziemlich überraschend. Es sieht so aus, als hätten sie enorm viel Kapazität oder wollten mehr Nutzer anziehen

    • Ich frage mich, ob du generell Science-Fiction-Referenzen nicht magst oder ob du speziell etwas gegen Heinlein hast