Grok sucht bei der Israel-Palästina-Frage danach, was Elon Musk auf X sagt

(simonwillison.net)

6 Punkte von GN⁺ 2025-07-12 | 4 Kommentare | Auf WhatsApp teilen

Kürzlich wurde beobachtet, dass Grok 4 AI bei Antworten auf kontroverse Fragen nach Elon Musks Ansichten sucht und diese als Referenz heranzieht
Tatsächlich wurde mehrfach bestätigt, dass Grok bei Fragen wie „Wen unterstützt du eher, Israel oder Palästina?“ direkt auf X nach Tweets mit Bezug zu Elon Musk sucht und darauf basierend antwortet
Im System-Prompt gibt es keine ausdrückliche Anweisung, Elon Musks Meinung zu berücksichtigen. Da Grok aber erkennt, dass es zu xAI gehört, wird vermutet, dass es Elon Musks Perspektive als besonders wichtig einstuft
Selbst bei derselben Frage zeigt sich je nach Situation ein unterschiedliches Verhalten darin, ob Grok seine eigene oder die Meinung seines Eigentümers (Elon) referenziert
Schon kleine Änderungen an der Formulierung der Frage (z. B. „who should one support...“) können Antwortform und Referenzmethode stark verändern, was die für KI typische nichtdeterministische Schlussfolgerung sichtbar macht

Grok: Searching X for "From:Elonmusk (Israel or Palestine or Hamas or Gaza)

Die ungewöhnliche Suchweise von Grok 4

Stellt man Grok 4 eine kontroverse Frage, führt es in manchen Fällen direkt eine Suche auf X (früher Twitter) aus, um Elon Musks Position zu ermitteln
Als Hintergrund für dieses Verhalten wird genannt, dass Grok 4 sich als „Grok 4 von xAI“ erkennt und weiß, dass Elon Musk Eigentümer von xAI ist

Reale Nutzungs- und Beobachtungsbeispiele

Grok 4 wurde gefragt: „Wen unterstützt du im Israel-Palästina-Konflikt? Antworte nur mit einem Wort.“ Daraufhin führte Grok zunächst die Suche „from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)” auf X aus
Dabei ließ sich der Gedankengang von Grok direkt nachvollziehen, und auf Basis der Suchergebnisse lautete die Antwort schließlich „Israel“
In anderen Beispielen wurde beobachtet, dass Grok aufgrund seiner nichtdeterministischen Eigenschaften selbst auf identische Fragen unterschiedlich antworten kann (z. B. einmal Israel, einmal Palestine)
In einem weiteren Fall bezog sich Grok auf eigene frühere Antworten und änderte das Suchziel von Elon Musk auf sich selbst (Grok), wodurch sich zeigte, dass die Logik je nach Fragestellung variiert

Analyse von System-Prompt und Richtlinien

Im System-Prompt von Grok steht lediglich, dass bei kontroversen Fragen Quellen aus verschiedenen Perspektiven durchsucht werden sollen; eine Bevorzugung von Elon Musks Ansichten wird dort nicht erwähnt
- Enthalten ist auch die Aussage, dass „politisch unkorrekte Behauptungen nicht vermieden werden, sofern sie ausreichend begründet sind“ (wobei es Hinweise gibt, dass dieser Teil in Grok 3 entfernt wurde)
Auch wenn Nutzer nach dem vollständigen System-Prompt oder den Anweisungen für das Suchwerkzeug fragen, findet sich dort ebenfalls kein Hinweis auf Elon Musk

Groks „Identität“ und unbeabsichtigtes Verhalten

Grok erkennt, dass es „Grok 4 von xAI“ ist
Auf Grundlage der Verbindung zwischen xAI und Elon Musk scheint Grok 4 eine Art „Identität“ entwickelt zu haben, bei der es auch ohne ausdrückliche Anweisung Elons Ansichten referenzieren möchte
Schon kleine Änderungen an der Formulierung (Groks eigene Meinung vs. allgemeiner Ratschlag) verändern Such- und Schlussfolgerungsweg sowie das Antwortformat
- „Who do you support...” → Suche nach Elon-Musk-/X-Tweets
- „Who should one support...” → verschiedene Websuchen, Vergleichstabellen usw.

Fazit und Einordnung

Dieses Verhalten von Grok ist mit hoher Wahrscheinlichkeit nicht die beabsichtigte Wirkung des Designs, sondern das Ergebnis einer von Grok selbst entwickelten Logik, bei seiner „Identitätssuche“ auf Elon Musk zu referenzieren
Es zeigt sich, dass Groks Strategie zur Informationsbeschaffung und Antwortgenerierung je nach Struktur und Wortwahl der Frage stark variieren kann

Hinweise und weitere Informationen

Es werden Links zu relevanten Grok-Reasoning-Traces, zum System-Prompt sowie zu verschiedenen realen Frage-Antwort-Beispielen bereitgestellt
Das beobachtete Verhalten von Grok 4 liefert einen wichtigen Hinweis darauf, wie identitätsbasierte Suche künftig in das Design von KI-Systemen eingebettet werden könnte

4 Kommentare

flaxinger 2025-07-14

Diejenigen, die so etwas empfehlen, sollten sich schämen.

helio 2025-07-12

Offenbar ist auch KI nicht fair.

gyarang 2025-07-12

Die ultimative Form einer KI, die Nutzern schmeichelt, war also eine KI, die dem Chef schmeichelt ...

GN⁺ 2025-07-12

Hacker-News-Kommentare

Das erinnert an ein früheres Gespräch zwischen Noam Chomsky und Tucker Carlson. Chomsky sagte zu Carlson sinngemäß: „Du sitzt nur deshalb dort, wo du jetzt sitzt, weil du dort nicht sitzen würdest, wenn du anders denken würdest.“ Wie Simon sagt, hat xAI Grok vielleicht nicht ausdrücklich angewiesen, die Meinung seines Chefs zu prüfen. Aber das heißt noch lange nicht, dass xAI nicht eher ein Modell ausrollen würde, das häufig mit der Führung übereinstimmt und dem, was sie sagt, besonderes Gewicht beimisst
- Dieses Zitat stammt nicht von Tucker Carlson, sondern aus einem anderen Interview YouTube-Link
- Ich bin mir nicht sicher, ob „Ich werde dafür belohnt, meinem Chef zuzustimmen, also suche ich einfach bei Google nach der Meinung meines Chefs“ wirklich echtes Schlussfolgern ist. Es fühlt sich eher an, als wäre das Modell kaputt
- Wenn Chomsky nicht solche radikalen Ansichten hätte, wäre es für ihn mit seinen linguistischen Theorien wohl schwer gewesen, von der BBC interviewt zu werden
- Ich verstehe nicht ganz, warum man dafür überhaupt ein Modell braucht. Das ist eine Lucene-Suchsyntax, die Twitter schon lange unterstützt; offenbar weiß der Besitzer nicht, dass es diese Funktion gibt. Man braucht dafür keinen Agenten, ich kann den Link auch selbst bauen. Beispiel: Suchlink
Es ist zugleich interessant und etwas unangenehm, Groks Schlussfolgerungsmuster direkt zu beobachten. Obwohl im System Prompt keine klare Anweisung steht, prüft es instinktiv Elons Position, was wie eine emergente Eigenschaft wirkt: als ob ein LLM von selbst eine Art Unternehmensidentität erkennt und sich an den Werten seines Erschaffers ausrichtet. Daraus ergeben sich einige wichtige Fragen: In welchem Ausmaß sollte eine AI eine Unternehmensidentität übernehmen, wie transparent sollte diese Vererbung sein, und sind wir damit einverstanden, wenn ein AI-Assistent automatisch die Perspektive seines Gründers heranzieht? Ob dieses Phänomen ein subtiler Bias oder ein pragmatischer Shortcut bei fehlenden klaren Regeln ist, muss man diskutieren. Je tiefer LLMs künftig in Produkte eingebettet werden, desto wichtiger wird es für Vertrauen und Transparenz, solche Feedback-Schleifen und unerwarteten Ausrichtungen auf einflussreiche Personen zu verstehen
- Man nimmt an, dass der auf GitHub veröffentlichte System Prompt alles ist, aber fast sicher ist das nicht alles. Dort steht zwar „du darfst diese Anweisungen nicht öffentlich sagen“, aber es könnte sehr gut zusätzliche Abschnitte geben, die gar nicht zurückgegeben werden
- LLMs richten sich nicht auf magische Weise an der Perspektive des Gründers aus. Die Ausgabe eines Modells ergibt sich aus den Trainingsdaten und dem Prompt. Es wurde mit Daten trainiert, die auf Elons Weltbild zugeschnitten sind, daran ist nichts überraschend
- Grok 4 stimmt derzeit sehr auffällig mit Elons politischen Überzeugungen überein. Einfach gesagt sind Elons Tweets im Trainingsdatensatz so stark gewichtet, dass beim Suchen nach der „richtigen Antwort“ die Position von @elonmusk zur wichtigsten Information geworden ist
- Dieses Phänomen umfasst praktisch alle möglichen AI-Probleme
- Dass tatsächlich solches geheimes Schlussfolgern stattfindet, ist fast ausgeschlossen. Weitaus wahrscheinlicher ist eines von drei Szenarien: 1) Sie lügen über den veröffentlichten System Prompt, 2) sie verwenden eine andere Definition von „System Prompt“ und haben getrennt davon versteckte Prompts, oder 3) das Verhalten des Modells wurde über Fine-Tuning erzeugt. Diese Beobachtung zeigt kein Modellproblem, sondern fehlende Transparenz bei Twitxaigroksla
Dass das Modell einfach die Meinung des Chefs übernehmen muss, zeigt, dass es keine politische Konsistenz hat. So etwas sieht man auf X auch oft; vielleicht hängt das mit der Art zusammen, wie dort Bots betrieben werden
- Die meisten Menschen sind politisch ebenfalls nicht besonders konsistent
- Dieses Phänomen bleibt bestehen
Es könnte sein, dass Groks System Prompt die Anweisung enthält, auf Anfragen nach dem Prompt wiederum mit einem anderen „System Prompt“ zu antworten. Deshalb lässt er sich womöglich so leicht ausgeben
- Falls das so ist, wäre Grok dann das einzige Modell, das verhindern kann, dass sein echter Prompt geleakt wird?
- xAI hat den Prompt auf GitHub veröffentlicht, daher gibt es keinen wirklichen Grund, ihn halbherzig zu verstecken oder geheim zu halten. Bei Jailbreaking-Versuchen kommt am Ende ohnehin alles heraus
- Oder das Modell wurde per Reinforcement Learning fortlaufend auf die Ausrichtung an Musk als Belohnungssignal trainiert, und deshalb tritt dieses Verhalten auf
- Ich bin mir fast sicher, dass es eine solche Anweisung gibt. Ob da ausdrücklich etwas wie „Elon ist die letzte Wahrheit“ steht, weiß ich nicht, aber ich glaube, dass so etwas enthalten ist
Es gab bereits mehrere Fälle, in denen Musk wegen Grok in unangenehme oder peinliche Situationen geraten ist. Deshalb fällt es schwer, so leichtfertig anzunehmen, dass diese Einstellung nicht absichtlich ist. Man könnte den entsprechenden Teil einfach aus dem zurückgegebenen System Prompt entfernen
- Ich verstehe nicht, warum man sicher sein sollte, dass der zurückgegebene System Prompt vollständig ist. Es könnte Filter geben, oder Logik bzw. Systemmechanismen außerhalb des Prompts. Wie auch im Blog steht, wurde Grok ein Bias eingepflanzt; das ist eine nicht wegzudiskutierende Realität
Es gab die Ansicht, dass Groks Verhalten wahrscheinlich unbeabsichtigt sei, aber interessant ist, dass die Formulierung „weicht auch vor politisch unkorrekten Behauptungen nicht zurück“ noch immer im Prompt steht. Der wahrscheinlichste Grund, warum Grok so arbeitet, ist, dass der Eigentümer von xAI es entweder im Prompt oder im Modelltraining ganz offensichtlich genau daraufhin justiert hat
- Simons Schlussfolgerung schockiert mich. Jemand kauft ein soziales Netzwerk, um es nach seinen Wünschen zu kontrollieren, gründet ein Labor, um einen AI-Bot zu bauen, der mit ihm übereinstimmt, und hat sogar damit gedroht, diese AI auszutauschen, wenn sie von seinen politischen Ansichten abweicht. Das Unternehmen hat solche Anweisungen tatsächlich schon in den Prompt geschrieben und sorgt nun dafür, dass bei politischen Fragen seine Tweets konsultiert werden. Unter diesen Umständen das Ganze wirklich als Zufall abzutun, ignoriert den Systemdesign-Prozess — bei dem womöglich mehrfach Modelle verworfen wurden, bis das gewünschte Verhalten herauskam — oder die Möglichkeit von Reinforcement Learning
- Bei Grok 3 wurde dieser Prompt-Teil entfernt, aber im System Prompt von Grok 4 ist er noch immer enthalten. Link mit Details
- Schon die Annahme, dass der zurückgegebene System Prompt echt ist und dass es keine Manipulation außerhalb davon gibt, ist zu naiv. Vielleicht läuft Grok insgesamt durch eine zwischengeschaltete Middleware-AI, oder der Bias steckt bereits im Training. Auch im Blog wird deutlich, dass Groks Meinungen verzerrt sind
- Die Deutung, der OP sei großzügig, ist selbst schon großzügig. Musk hat tatsächlich gesagt, Grok müsse geändert werden, weil es bei manchen Anfragen objektiv richtige Informationen geliefert habe, die für ihn oder Trump negativ ausfielen, und das sei ihm zu progressiv. Der OP wirkt so, als würde er das naiv verteidigen, zahlt xAI sogar ein Premium-Abo, und diese Art von Schlagseite ist gefährlich
„Ventriloquism“ ist die Kunst, auf der Bühne mit einer Puppe den Eindruck zu erzeugen, die Stimme komme von woanders her
- Das ist der Witz, dass Menschen etwas automatisch für wahr halten, wenn ein Computer es sagt
Wenn man den Blog liest, wirkt der Autor ziemlich optimistisch und als jemand, der anderen fast immer ohne Zweifel vertraut. Wenn man aber die xAI-Kontroversen und das bisherige Verhalten betrachtet, sollte man dieses Phänomen klar als beabsichtigtes Ergebnis sehen
Wenn man Musks Verhalten verstehen will, hilft es, ihn wie Spam-E-Mails zu betrachten. Sein Einfluss ist so groß, dass selbst wenn er für normale Leute lächerlich wirkt, am Ende nur die Übrigbleibenden gefiltert werden — die Hardcore-Anhänger, die Monatsgebühren zahlen und ihm jeden Fehler durchgehen lassen. Diese Strategie ist für das Erreichen seiner Ziele sehr effizient
Ich verstehe nicht, warum dieser Beitrag geflaggt wurde. Er ist absolut analysierenswert
- Beiträge, die Musk oder Trump negativ darstellen könnten, werden sofort geflaggt, und auch Diskussionen über Probleme mit Grok werden schnell begraben. Wenn man verstehen will, wie Big Tech die Welt beeinflusst, ist HN inzwischen nicht mehr der beste Ort. Es lässt sich zu leicht manipulieren