Was halten Sie von dem Trugbild namens Ralph Loop?

11 Punkte von brainer 2026-04-15 | 66 Kommentare | Auf WhatsApp teilen

Seit einigen Monaten begegnen mir, wenn ich die koreanische Entwicklerszene beobachte, seltsame Behauptungen wie „Der Token-Verbrauch ist gleichbedeutend mit Kompetenz“.
Dazu kommen dann noch ziemlich dreiste Aussagen, dass eine einzige gut gemachte PRD ausreiche und die AI den Rest komplett löse.

Anfangs hielt ich das einfach für die übliche Übertreibung, die man in Communities oft sieht. Aber als solche Behauptungen immer weiter auftauchten, als wären sie die Wahrheit, fragte ich mich kurzzeitig sogar, ob ich vielleicht den Anschluss verloren hatte.
(Vor allem, nachdem ich Dinge wie Oh-my-OpenCode gesehen hatte.)

Wenn man dann aber tatsächlich danach sucht, ist es schwer, auch nur ein einziges brauchbares Beispiel zu finden, und reproduzierbar ist das praktisch überhaupt nicht.

In der US-Frontier-Community gab es solche Behauptungen überhaupt nicht. Als dann OpenClaw erschien, erfolgreich wurde und OpenAI den Gründer direkt abwarb, war ich mir noch sicherer.
(Insbesondere, weil die zentrale Philosophie von OpenClaw HITL (Human In The Loop) ist.)

Ah, also bin nicht ich zurückgefallen, sondern in der koreanischen Community kursieren religiös anmutende Übertreibungen und Trugbilder.

Auch der Gründer von OpenClaw sagte gestern:

Man kann Code erzeugen und ihn die ganze Nacht laufen lassen, aber das Ergebnis ist am Ende einfach der beste Müll.
und

YC-CEO Garry Tan sagt, dass er dem zu 100 % zustimmt.

https://x.com/garrytan/status/2043738478220062813?s=20

In den vergangenen Monaten habe ich gesehen, wie mir solche trügerischen Behauptungen direkt und indirekt Schaden zufügen, und inzwischen fällt es mir schwer, das noch länger hinzunehmen.

Ich wünschte, die Leute, die so etwas behaupten, würden in die Schranken gewiesen.

Ich bin jemand, der AI sehr optimistisch sieht und Codex seit fünf Jahren nutzt.

Ich denke, dass eine solche vollständige Automatisierung irgendwann möglich sein wird. Ich halte es auch für möglich, dass es – wie vielerorts behauptet – schon nächstes Jahr so weit sein könnte.

Aber zumindest heute ist es noch nicht so weit.

66 Kommentare

choam2426 2026-04-30

Wenn diese Behauptung wahr wäre, hätten Anthropic, Google und OpenAI längst alle bestehende Software ersetzt und noch mehr.

winkagn 2026-04-24

Sogar intern scheint gerade diese seltsame Stimmung aufzukommen, dass man nur dann als leistungsstark gilt, wenn man viele Tokens verbraucht.
Wirklich, aus wessen Kopf ist das eigentlich entsprungen...

mayihelpyou 2026-04-16

Jedes Mal, wenn ich die Beiträge dieser Gruppe sehe, bekomme ich echt Ausschlag.

jyoung105 2026-04-15

Ich habe den Eindruck, dass dieser Text absichtlich so geschrieben wurde.
Allerdings gibt es auch diesen Aspekt.
Worüber wir alle vor drei Jahren gesprochen haben, war, dass die Kosten für AI am Ende günstiger werden würden.
Aber das war nicht so. Sie werden teurer. Sogar bei chinesischen AI-Modellen ist es genauso.
Deshalb beginnt in letzter Zeit die Methode, durch den Austausch von Modellen verschiedener Tiers innerhalb einer einzelnen Aufgabe Kostensenkungen zu erreichen, ebenso wie die Methode, Open Source, insbesondere gemma 4 (reasoning trace ist deutlich kürzer), lokal zu betreiben und für Agenten zu nutzen, zum Gesprächsthema zu werden. Das war anfangs etwas, wogegen alle waren, aber jetzt wirkt es äußerst vernünftig, und es entstehen viele entsprechende Bewegungen. Ebenso entwickelt sich AI derzeit zu einer Branche, die ein Kampf ohne richtige Antwort ist, aber von der Überzeugung getragen wird, dass der Sieger am Ende viel gewinnen wird.

Mein Fazit ist, dass es wohl in diesem Sinne gemeint ist.

Noise: Das zeigt sich auch sehr stark in den PR-Aktivitäten von AI-Frontier-Unternehmen. Bedeutet das dann, dass man diese Unternehmen nicht nutzt, weil sie etwas falsch gemacht haben? Nein, AI wird man ganz sicher nutzen. Man muss nur die Informationen rund um das Noise herausfiltern. Wenn man voller Unzufriedenheit ist, gilt das umso mehr.

Unnötige Aktionen: Das gilt ähnlich auch für Investments. Menschen, die beim Investieren Erfolge erzielt haben, haben mit hoher Wahrscheinlichkeit bereits Misserfolge erlebt. Mit einer Haltung wie „Ich werde auf keinen Fall Verlust machen“ ist es von vornherein schwer, überhaupt mit dem Investieren anzufangen; in Phasen fallender Märkte verspürt man dann nur Erleichterung darüber, nicht investiert zu haben, und Mitleid mit denen, die investiert haben, und in tatsächlichen Aufwärtsphasen empfindet man nur Frustration. Genauso ist es letztlich auch bei AI: Im Vorteil sind diejenigen, die es weiter beobachten, es ausprobieren und Verschiedenes testen. Ich spüre das noch stärker bei Nicht-Entwicklern. Es gibt viele Menschen, die zwar kein Entwicklungswissen hatten, es aber durch ständiges Anwenden und Forschen gelernt und dadurch bessere Software geschaffen haben. Solche Menschen mit „Eifer“ sind schwerer zu schlagen, als man denkt. Das spüre ich selbst sehr stark, und ich glaube, ich bemühe mich in jedem Moment darum, dass mein Eifer nicht verschwindet.

Mein Fazit ist: Auch ralph ist kein bloßes Trugbild, sondern eher eine Art Konzept des industrial engineering, eine im Hinblick auf test-time computing als Vorteil nachgewiesene Methode. Man kann natürlich sagen, es sei ein Trugbild, aber dennoch glaube ich, dass die Erfahrung, sich dafür interessiert und versucht zu haben, es zu reproduzieren, ein großer Gewinn für Sie sein wird.

apkas 2026-04-15

Es stimmt zwar, dass man das Rauschen herausfiltern muss, aber ich denke, man sollte mit Aussagen nach dem Muster „Wenn es unbequem ist, dann setz dich eben anders hin“ vorsichtig sein. Wenn schon das Äußern von Unzufriedenheit problematisiert wird und die Botschaft lautet: „Verhalte dich nicht wie jemand, der sich nicht anpassen kann, sondern passe dich schnell an und werde ein Gewinner“, dann führt das meiner Meinung nach zu dem blinden Ergebnisfetischismus, den wir heute sehen. Natürlich war das vermutlich nicht so gemeint.

Und ob es nun um Looping wie bei Ralph geht, um einen Ensemble-Ansatz, bei dem man abwechselnd mehrere Modelle befragt, oder um Subagent-Orchestrierung: Die Vorteile solcher Test-Time-Computing-Methoden sind bislang nicht bewiesen. LLMs wurde von Anfang an ein people-pleasing behavior eingeprägt, und wenn man sich die Ergebnisse aus solchen Prozessen genau ansieht, merkt man oft, dass nicht wirklich Dinge korrigiert werden, die einer Korrektur bedürfen, sondern dass Probleme erfunden und dann „behoben“ werden, nur weil man dem Modell gesagt hat, es solle etwas korrigieren.

Ich stimme zu, dass schnelle Erfahrung der größte Trumpf unserer Zeit ist. Aber ich finde, wenn das nicht nur als Werkzeug für den eigenen Vorteil genutzt, sondern darüber hinaus missbraucht wird, dann verdient das Kritik. Ich glaube, auch das Thema des ursprünglichen Beitrags ist: „Mir gefällt nicht, dass [einfach bedingungslos schnell, viel und vor allen anderen] so übertrieben dargestellt wird, als wäre das ein erfolgreiches KI-basiertes Entwicklungsszenario.“

jyoung105 2026-04-15

Ich habe Ihren Kommentar jetzt erst gesehen.
Offenbar wurden die Kommentare nicht richtig aktualisiert.
Vielen Dank für Ihre gute Rückmeldung.

Zunächst möchte ich auch meine Sicht darlegen.

Statt es problematisch zu finden, dass Unzufriedenheit geäußert wurde (ich selbst würde es nicht als Unzufriedenheit bezeichnen), würde ich mich freuen, wenn Sie es so verstehen könnten, dass auch ich zu diesem Phänomen meine Meinung geäußert habe. Da es unmöglich ist, eine Situation zu schaffen, mit der alle zufrieden sind, respektiere ich sowohl die Meinung des Autors des ursprünglichen Beitrags als auch die des Kommentators. Ich denke allerdings auch, dass meine Meinung respektiert werden sollte.

test-time computing ist meiner Ansicht nach bereits ein durch Forschung belegter Fall. Den ensemble-Ansatz sehe ich jedoch eher als eine Methode, die Grenzen der context window size zu umgehen, und weniger als ein Konzept von test-time computing. Das Problem aus dem Satz „Oft werden nicht Dinge behoben, die sich tatsächlich lohnen würden, sondern weil man zum Beheben aufgefordert wurde, werden Probleme erfunden, die es gar nicht gibt, und dann behoben.“ tritt eindeutig auf, weshalb es derzeit wohl die beste Lösung ist, das mit einem Harness so weit wie möglich zu blockieren.

Und schließlich stimme ich auch darin zu, dass es rund um das Wort „viral“ erheblich viel Rauschen gibt und viele Menschen es nicht mögen. Allerdings habe ich Zweifel daran, ob die Leute, die die Harnesses bauen, daraus tatsächlich einen privaten Vorteil ziehen können, da es ja gerade diejenigen sind, die sie als Open Source veröffentlicht haben. Selbst in der aktuellen Situation stellen sie sie kostenlos bereit und bekommen dafür noch Kritik — ob man das wirklich als eigennützig bezeichnen kann, erscheint mir fraglich. Natürlich stimme ich zu, dass es ein falsches und kritikwürdiges Verhalten wäre, wenn man Angst schüren würde, um etwas zu verkaufen.

Nochmals vielen Dank für Ihre Meinung!

brainer 2026-04-15

Es ist tatsächlich viel günstiger geworden als noch vor drei Jahren.
Zur Zeit von GPT-4 bekam man selbst als zahlender Nutzer oft schon nach ein paar Stunden die Meldung, es später noch einmal zu versuchen, aber heute passiert das selbst beim 22-Dollar-Tarif nicht mehr.

Die intellektuelle Leistungsfähigkeit pro Token ist auf ein kaum vergleichbares Niveau gestiegen.

Wichtiger ist aber, dass wir dabei noch mehr Token verbrauchen und den LLM-Anbietern noch mehr Geld zahlen (Jevons-Paradoxon).

Ich habe Ralph Loop durchaus ausprobiert.
Ich habe auch noch bessere sub-agent driven development ausprobiert.
Aber am Ende entsprach meine Erfahrung doch der Aussage des OpenClaw-Gründers.

Wenn echte vollständige Automatisierung möglich wird, braucht man so etwas wie Ralph Loop vermutlich auch nicht mehr mit Gewalt zusammenzukonstruieren.

Am wichtigsten ist, dass damit in der Praxis weder wirklich brauchbarer Code noch ein brauchbarer Service entstehen.

jyoung105 2026-04-15

Ich kann der Meinung des Autors in Teilen zustimmen.
Ich stimme bei der intellektuellen Leistungsfähigkeit pro Token und beim Preis im Vergleich zu GPT-4 zu.

Allerdings sind die Token-Preise nach einem Rückgang wieder gestiegen, und wenn man Inferenz-Token, den Token-Verbrauch pro Aufgabe und den Token-Verbrauch pro Person betrachtet, wird diese Belastung sowohl für einzelne Nutzer als auch für Betreiber von AI-Services ziemlich hart. Das ist der Grund, warum Unternehmen wie Cursor, Intercom, Shopify und Chroma begonnen haben, eigene Modelle auf Open-Source-Basis zu entwickeln. Es ist inzwischen so weit gekommen, dass man preislich praktisch gar nicht mehr konkurrenzfähig sein kann.

Tatsächlich war das, was man ralph nennt, weniger eine erzwungene Konstruktion als vielmehr ein while-basiertes Bash-Script. Die Struktur ist entsprechend einfach. Was wir hier verstehen müssen, ist wohl, dass es letztlich ein Kampf darum ist, ob sich das systematisieren lässt. Auch Automatisierung ist ein Prozess, bei dem man die Intent exakt extrahiert, die Aufgabenteilung nicht schlampig, sondern präzise vornimmt und dies dann korrekt ausführt, sodass es fehlerfrei und vollständig implementiert wird – und falls nicht, welche Teile noch ausgeführt werden müssen.

Womit ich allerdings übereinstimme: Es wäre schön, wenn all diese Arbeiten mit einem einzigen „Klick“ erledigt wären, aber wie Sie vermutlich selbst gemerkt haben, ist das überhaupt nicht der Fall. Vielmehr wirkt es derzeit so, als müsse man noch mehr Setup vornehmen als bei der eigentlichen Code-Arbeit, und genau das scheint das aktuelle Problem zu sein. Außerdem gibt es beim Service im Allgemeinen oft nichts, das man unmittelbar spürbar wahrnimmt.

Was ich jedoch ganz klar empfinde: Die meisten Menschen sind nicht besonders gut in documentation. Weil sie Dinge nicht gut strukturieren können, fällt es ihnen schwer, etwas zu systematisieren, und deshalb habe ich oft beobachtet, dass sie mit solchen Aufgaben erhebliche Schwierigkeiten haben. Und AI ist auch nicht perfekt. In diesem Punkt empfinde ich das als Chance. Ich denke, dass sich zwischen den Menschen, die diese Arbeit kontinuierlich gemacht haben, und denen, die es nicht getan haben, ein ziemlich großer Unterschied ergeben wird. Menschen mit einer gewissen Widerstandsfähigkeit passen sich schnell an, während andere, die das aus verschiedenen Gründen nicht konnten, weiter zurückfallen und von Angstgefühlen überwältigt werden. Eigentlich sollte das aber, wie der Autor sagt, nichts sein, wovor man „Angst“ haben müsste, oder? Genau das wäre die bessere Richtung.

brainer 2026-04-15

Was ich sagen will: Die while loop ist ein erzwungenes Konstrukt.
Ursprünglich ist sie überhaupt nur deshalb entstanden, weil LLMs bei agentischen Aufgaben nicht gut sind und deshalb frühzeitig beendet haben (Rückgabe des EOS-Tokens).
Wenn wirklich ein Modell erscheint, das an eine ultimative AGI heranreicht, wird man auch keine while loop mehr brauchen.

Meine Fähigkeit zur Dokumentation mag unzureichend sein, aber bei Garry Tan oder Peter Steinberger ist das sicher nicht so.
Wenn das Problem darin liegt, dass das LLM nicht richtig funktioniert, dann genügt es, eine wirklich reproduzierbare Best-Practice-Demo zu zeigen.
Aber ich habe so etwas noch kein einziges Mal gesehen.

cloverhearts 2026-04-15

Ich stimme der Meinung des Autors ebenfalls zu.
Es scheint auch einen Aspekt zu geben, bei dem Verzerrungen dadurch entstehen, dass LLMs aufgrund der erfahrungsbezogenen Wahrnehmung als Systeme erscheinen, die chatten und kommunizieren können.

jyoung105 2026-04-15

Vielen Dank für Ihre gute Anmerkung.
Welche Art von Best-Practice-Demo wäre dann Ihrer Meinung nach erforderlich?
Ich möchte Sie um Ihre Einschätzung bitten, anhand welcher Aufgabe und welcher Implementierung sich beurteilen ließe, ob der Ralph Loop eine Illusion ist oder nicht.

brainer 2026-04-15

Man lässt den Ralph Loop mit nur einem nahezu perfekten PRD laufen und schließt die Entwicklung auf Production-ready-Niveau ab.
Und zwar so, dass es für niemanden offensichtlich wie AI Slop aussieht.

jyoung105 2026-04-15

Ah, also: Reicht es, mit einem nahezu perfekten PRD den Ralph Loop laufen zu lassen, um ein gewisses Maß an Produkt daraus zu machen?
Würde es reichen, den AI-Chat von Channel Talk zu bauen?

Und ich möchte noch eine Sache fragen.
Wäre es in Ordnung, wenn man dabei etwas wie ein Harness aufsetzt und so vorgeht?

brainer 2026-04-15

Ja, Harnesse oder Multi-Agent, Sub-Agent – das ist mir egal.

jyoung105 2026-04-15

Vielen Dank für Ihre Meinung!
Stimmt, es wäre schön, so ein Beispiel zu erstellen, haha

minislively 2026-04-18

Ehrlich gesagt fand ich bei diesem Text weniger die Problemstellung selbst problematisch als vielmehr die Entwicklung der Argumentation.

Formulierungen wie „Token-Nutzung ist gleich Kompetenz“ oder „Ein einziges gut gemachtes PRD, und die AI löst alles“ sind ziemlich starke Behauptungen, aber es bleibt unklar, wer das wo und in welchem Kontext tatsächlich so gesagt haben soll. Aus Leserperspektive wirkt das daher weniger wie eine Kritik an einer realen Strömung, sondern eher wie ein Strohmann-Argument, bei dem einige extreme Positionen mit unklarer Repräsentativität gebündelt und dann widerlegt werden.

Gerade bei denjenigen, die tatsächlich Tools bauen und Workflows verfeinern, einschließlich der om-Reihe, habe ich fast nie erlebt, dass sie im Sinne von „Mit einem einzigen PRD ist alles gelöst“ sprechen. Im Gegenteil: Sie wiederholen fortlaufend Releases, Überarbeitungen und Validierung. Das setzt meines Erachtens gerade voraus, dass menschliches Urteilsvermögen und Eingreifen weiterhin unverzichtbar sind.

Deshalb sollte man umso vorsichtiger sein, denn wenn solche Darstellungen falsch gelesen werden, kann es so wirken, als hätten bestimmte Builder oder Entwickler Dinge gesagt, die sie in Wirklichkeit nie gesagt haben. So vorzugehen ist meiner Meinung nach weniger eine gesunde Kritik, sondern eher ein Angriff auf Basis eines überzeichneten Framings.

Bei der Token-Nutzung ist es ähnlich. Sie ist kein absoluter Indikator für Kompetenz, aber man kann sie deshalb auch nicht einfach als völlig bedeutungslose Zahl abtun. Wenn die Unterschiede im Verbrauch sehr groß sind, kann das nicht bloß Verschwendung sein, sondern auch ein Unterschied in Suchaufwand, Experimentierumfang und Validierungsaufwand — und sich dadurch in einer unterschiedlichen realen Arbeitsdichte niederschlagen. Tatsächlich hat Jensen Huang ja ebenfalls gesagt, dass man mehr als die Hälfte seines Jahresgehalts in Tokens verbrauchen sollte.
https://www.youtube.com/shorts/XBnFPuru4xA

Ein gutes PRD ist ebenfalls kein Allheilmittel, sondern ein Hebel. Deshalb ist am Ende nicht die einfache Gegenüberstellung entscheidend, ob „Tokens gleich Kompetenz“ sind oder nicht, sondern nach welchen Maßstäben wir künftig Problemlösungsfähigkeit unter Einsatz von AI bewerten wollen.

shaun0927 2026-04-18

Ich stimme dem, was Sie geschrieben haben, vollkommen zu.
Tatsächlich ist die Aussage „Der Token-Verbrauch ist gleichbedeutend mit Kompetenz“ offensichtlich falsch und ein verzerrter Deutungsrahmen.

Vielmehr sollte man es aus der Perspektive betrachten, dass einem die Bedeutung des Token-Verbrauchs erst in dem Moment bewusst wird, in dem man erkennt, dass die Begrenztheit von Rechenressourcen – einschließlich der menschlichen – der einzige Flaschenhals ist.

brainer 2026-04-18

Ich weiß zwar, welche Gruppe solche Behauptungen aufstellt, habe sie aber bewusst nicht ausdrücklich erwähnt, weil es rechtliche Probleme geben könnte.
Es gibt bekannte Unternehmen, die sogar den Token-Verbrauch messen, und auch unten gibt es jemanden, der das anonym erwähnt.

Auch auf GeekNews sieht man Beiträge, in denen Leute ihren eigenen Token-Verbrauch beinahe prahlerisch hervorheben.

Die Menschen, die solche Behauptungen aufstellen, sind nicht die Mehrheit.
Aber im koreanischen AI-Umfeld vertreten einige lautstarke Personen aus dem geisteswissenschaftlichen Bereich solche Thesen, und dass Garry Tan seit einigen Tagen immer wieder fat harness kritisiert, ist wohl ein Beleg dafür, dass diese quasi religiöse Behauptung aus Korea inzwischen bis in die USA gelangt ist.

Sich auf die Aussagen von Jensen Huang zu berufen und sie als Wahrheit darzustellen, ist geradezu ein typischer autoritätsgläubiger Sprachstil.
Jensen Huang war vor Jahrzehnten ein Ingenieur, der Grafikkarten entwickelte; heute ist er kein Ingenieur mehr und auch kein AI-Experte.
Bei der Korrelation stimme ich zu, aber die Behauptung der Gruppe, von der ich spreche, läuft am Ende nur darauf hinaus, nutzlos Ralph zu drehen.

Um die Wahrheit zu sagen: Selbst im ursprünglichen o1-Paper von OpenAI, das test-time compute erstmals propagierte, wird klar gesagt, dass es nicht immer besser wird, wenn man es weiter erhöht, oder dass das nur in manchen Fällen gilt.
Und selbst dort geht es um reasoning effort, nicht darum, einen Ralph Loop laufen zu lassen.
Auch im Prompt Guide für GPT-5.4 steht ausdrücklich, dass höherer reasoning effort nicht immer besser ist.

https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance

Außerdem wird beim Design eher empfohlen, den reasoning effort zu reduzieren.

https://developers.openai.com/blog/…

Ich sage das, weil es Leute gibt, die behaupten, PRD sei ein Allheilmittel, obwohl es das nicht ist.

minislively 2026-04-19

Der Titel fragt zwar klar danach, was man von dem Trugbild namens Ralph Loop hält, aber der eigentliche Text behandelt dieses Thema nicht konkret, sondern verzweigt sich in viel breitere und andere Zusammenhänge, sodass insgesamt der Eindruck entsteht, dass der Text nicht wirklich zum Titel passt.

Deshalb wollte ich nicht darüber streiten, ob „so eine Person tatsächlich existiert oder nicht“, sondern darauf hinweisen, dass der Text extrem zugespitzte Behauptungen mit unklarer Quelle und unklarem Kontext zusammenbindet und dann widerlegt, weshalb er sich wie eine Strohmannkritik liest.

Die Antwort auf meinen Kommentar hat diesen Punkt allerdings ebenfalls nicht direkt erklärt, sondern ist ehrlich gesagt eher dadurch aufgefallen, dass sie fortlaufend andere Personen, andere Diskurse und andere Beispiele heranzieht, sodass es für mich eher wie eine Verwischung des eigentlichen Streitpunkts wirkte.

Besonders selektiv wirkte auf mich auch, dass Sie das Zitieren von Äußerungen prominenter Personen als autoritäre Rhetorik kritisieren, in der Antwort dann aber wiederum Garry Tan, OpenAI-Dokumentation und GPT-Guides als Belege heranziehen.

Ich kann nachvollziehen, dass eine Kultur unangenehm wirken kann, in der mit hohem Token-Verbrauch übertrieben geprahlt wird. Davon getrennt halte ich es aber für eine andere Form der Überzeichnung, auch diejenigen in denselben Rahmen zu stecken, die tatsächlich durch wiederholtes Experimentieren, Verifizieren und Überarbeiten ihre Tools und Workflows verfeinern.

brainer 2026-04-19

Beurteilen Sie einen Text nur nach der Überschrift?
Was halten Sie dann von dem Paper "Attention Is All You Need"?

Garry Tan hat zuletzt mit guten LLM-Skills wie GStack gezeigt, wie kompetent er im Umgang mit AI ist.
Beim Gründer von OpenClaw ist es genauso, und OpenAI ist der offizielle Leitfaden des Unternehmens, das die LLM-Forschung und -Industrie anführt.

Und im Gegensatz dazu Jensen Huang? Bitte sagen Sie mir nicht, dass der CEO eines Unternehmens, das Spitzhacken verkauft, sich deshalb gut mit Gold auskennt.
Jensen Huang wiederholt letztlich auch nur, was jemand anderes sagt.
Wenn das Whataboutism sein soll, habe ich dazu nichts mehr zu sagen.

Auch Menschen, die Tools und Workflows verfeinern, in denselben Rahmen zu stecken, halte ich für eine andere Form der Übertreibung.

Ich bin genau so jemand, der diese Tools und Workflows verfeinert — wollen Sie damit sagen, dass ich Self-Diss betrieben habe?

minislively 2026-04-19

Ich habe mir nicht allein anhand des Titels ein Urteil gebildet, sondern wollte darauf hinaus, wie stimmig Titel und Text inhaltlich zusammenpassen.

Und worauf ich hinauswollte, war nicht die Frage, ob Garry Tan oder OpenAI mehr Autorität haben als Jensen Huang, sondern dass es auf mich nicht konsistent wirkte, einerseits Zitate anderer als Autoritätsargument zu kritisieren und sich in der eigenen Antwort dann wiederum auf eine andere Autorität zu stützen.

Und schließlich war die Formulierung „auch die Leute, die Tools und Workflows verfeinern, in denselben Frame zu stecken“ nicht auf eine bestimmte Person gemünzt, sondern sollte ausdrücken, dass die Art der Darstellung im Text so gelesen werden kann. Das sofort als „War das als Selbst-Diss gemeint?“ aufzufassen, scheint mir die Reichweite meines Kommentars etwas zu weit auszulegen.

minislively 2026-04-19

Und wenn Sie der Ansicht sind, dass Titel und Haupttext voneinander abweichen können, würde mich interessieren, ob dieser Beitrag dann eher nicht als eine Analyse des Ralph Loop selbst zu verstehen ist, sondern als ein Text, der auf die von Ihnen erwähnte bestimmte Gruppe insgesamt abzielt.

brainer 2026-04-19

Sie haben schließlich die Aussage von „Jenseunghwang“ zitiert, der nicht einmal ein AI-/LLM-Experte ist.

Ja, der Beitrag richtet sich tatsächlich gegen eine bestimmte Gruppe.
Ich habe dabei das wohl repräsentativste und zugleich seltsamste Gerede daraus erwähnt: PRD + Ralph Loop.

Ich weiß nicht, ob Sie nicht wissen, dass es so eine Gruppe gibt, oder ob Sie selbst zu dieser Gruppe gehören und nur so tun, als wüssten Sie von nichts.
Es gibt gute Gründe dafür, dass diese Gruppe im In- und Ausland immer wieder kritisiert wird.
Wo kein Feuer ist, steigt schließlich kein Rauch auf.

minislively 2026-04-19

Und persönlich fand ich diesen Beitrag diesmal ziemlich enttäuschend.
Ich hatte GeekNews immer deshalb geschätzt, weil man dort eher auf Beiträge stößt, die einem Informationen vermitteln, die man noch nicht kannte, neue Perspektiven eröffnen oder den eigenen Horizont erweitern, statt auf Texte, die gezielt auf bestimmte Personen oder Gruppen abzielen.
Deshalb habe ich es diesmal umso bedauerlicher empfunden, dass die Darstellung von vornherein auf einer bestimmten Gruppe als Prämisse aufbaut.

Zumindest für mich ist GeekNews weniger ein Ort, an dem jemand in ein bestimmtes Framing gepackt und gezielt angegangen wird, sondern eher ein Raum, der durch konkretere Informationen und mehr Kontext dazu beiträgt, das eigene Denken zu erweitern. Deshalb blieb bei diesem Beitrag für mich weniger die Behauptung selbst problematisch, sondern mehr die Art, wie sie entfaltet wurde. Ich belasse es dabei.

brainer 2026-04-19

Wie oft soll ich das noch sagen.

Bestimmte Gruppen oder Personen direkt ins Visier zu nehmen, halte ich aus meiner Sicht nicht für gut.

Der YC-CEO und der Gründer von OpenClaw haben selbst bewiesen, dass sie Menschen sind, die man durchaus als AI-Experten bezeichnen kann.
Mit Jensen Huang ist das etwas anderes.

Ich habe PRD nie als Hirngespinst bezeichnet. Bitte achtet auf den Kontext.

Jetzt, da sich solche Behauptungen über ein Hirngespinst ausgebreitet haben, geht es nicht mehr nur um meinen persönlichen Ärger, sondern um etwas, das mit der Entwicklung von AI in Südkorea und darüber hinaus mit dem Fortschritt der Menschheit zu tun hat.
Sollten wir diese Alchemie nicht korrigieren, bevor diese Leute noch größer werden und auf der anderen Seite Einfluss gewinnen?

Wenn man nicht gemeint ist, kann man es einfach übergehen.
In den anderen Kommentaren zu diesem Beitrag haben mir bereits einige zugestimmt, und Leute aus der Gruppe, von der ich spreche, sind gekommen, um mich anzugreifen.

minislively 2026-04-20

Und noch ein Punkt: Formulierungen wie „KI in Südkorea“, „Fortschritt der Menschheit“ oder „man müsse die Alchemie richtigstellen“ wirkten auf mich so, als stünde zunächst ein etwas zu großer Anspruch im Vordergrund. Ich denke, man kann durchaus ein solches Problembewusstsein haben. Allerdings hatte ich den Eindruck, dass Aussagen auf diesem Niveau viel überzeugender vermittelt werden, wenn man statt Menschen in einer Community pauschal zusammenzufassen und zu kritisieren, konkrete Beispiele oder Arbeiten sowie spezifischere Prüfmaßstäbe mitliefert.

Außerdem wirkte es auf mich nicht ganz konsistent, dass Aussagen des YC-CEO oder des Gründers von OpenClaw als bedeutsame Belege akzeptiert werden, während ausgerechnet ein Zitat von Jensen Huang als bloßer Autoritätsglaube behandelt wird. Am Ende las es sich für mich so, als hänge der Maßstab dafür, wessen Worte als Beleg gelten und wessen als bedeutungslos verworfen werden, weniger von der Aussage selbst als von der Person des Sprechers ab. Jensens Worte müssen kein ausschlaggebender Beleg sein, aber nur dieses Zitat besonders so zu behandeln, als sei es wertlos, erschien mir als etwas überzogene Auslegung.

Letztlich denke ich, dass solche Behauptungen für andere nur dann wirklich nachvollziehbar werden, wenn nicht nur Kritik wiederholt wird, sondern zugleich Beispiele oder Arbeiten vorgelegt werden, auf die man sich direkt beziehen und die man selbst prüfen kann. Nur so kann die Richtung, die Sie hier ansprechen, nicht als bloße Ablehnung, sondern als tatsächlich überzeugende Problemformulierung gelesen werden. Wenn es solche Ergebnisse gibt, würde ich sie mir dann auch einmal aktiv ansehen und sie bei Bedarf selbst ausprobieren.

brainer 2026-04-20

Hören Sie bitte mit den Tautologien auf. Sie behaupten, ich hätte Dinge gesagt, die ich nicht gesagt habe, und stellen erneut Fragen zu Inhalten, die ich bereits widerlegt habe.

minislively 2026-04-20

Ehrlich gesagt wirkt es auf mich, je mehr ich den Beitrag und die Antworten zusammen lese, weniger wie ein Text für Information oder Analyse, sondern eher wie ein Text, in dem das Bedürfnis überwiegt, einen bestimmten Strom zu verurteilen.

Wenn Sie wirklich präzise Kritik üben wollten, hätten Sie meiner Meinung nach klarer darstellen können, welche konkreten Beiträge es in der Community tatsächlich gab und wer in welchem Kontext welche Behauptung aufgestellt hat. Statt solcher konkreten Beispiele fassen Sie jedoch zuerst alles mit großen Formulierungen wie „die koreanische Entwicklerszene“, „solche Gruppen“ oder „religiös wirkende Übertreibung“ zusammen; dadurch bleiben beim Lesen eher Assoziationen und Frames hängen als die tatsächlichen Aussagen.

Gerade die Art, Anspielungen zu machen, die an die om-Reihe erinnern, und dann gleichzeitig zu sagen, man ziele eigentlich nicht direkt auf eine bestimmte Gruppe oder Person, lässt es weniger wie einen informativen Text wirken als wie den starken Wunsch, irgendjemanden breitflächig zu verurteilen.

Außerdem wirkt es, wenn Sie auf Reaktionen mit Formulierungen antworten wie „Wenn Sie nicht gemeint sind, können Sie einfach weitergehen“ oder „Entweder stimmen Sie zu, oder die Leute aus der Gruppe, von der ich spreche, sind gekommen, um anzugreifen“, eher wie eine Form des Abstempelns als wie eine Diskussion. Wenn man einen Text von vornherein mit einem so starken Frame eröffnet, ist es nur natürlich, dass Ablehnung und Widerspruch entstehen. Wenn man diese Reaktionen dann wiederum als eine bestimmte Gruppe zusammenfasst und interpretiert, wird am Ende jede Gegenrede in den Frame hineingezogen.

Ich denke, genau diese Art des Schreibens steht weniger für die Logik eines Textes, der Informationen und Kontext teilt, sondern eher für die Logik, ein communitytypisches Gegeneinander zu erzeugen. Und ehrlich gesagt finde ich es besonders schade, weil so eine Art von Beitrag auf Plattformen wie X oder Threads vielleicht vertraut sein mag, aber zumindest auf mich deutlich weiter von der Atmosphäre entfernt wirkt, die ich bei GeekNews erwartet hatte.

Ich habe GeekNews eher als einen Ort wahrgenommen, an dem nicht pauschal große Gruppen verurteilt werden, sondern an dem eigene Erfahrungen, konkrete Informationen und Kontexte geteilt werden, die den Horizont erweitern. Deshalb bleibt bei diesem Beitrag für mich weniger wegen der Behauptung selbst als vielmehr wegen der Art, wie sie behandelt wurde, ein stärkeres Gefühl des Bedauerns zurück.

minislively 2026-04-19

Dann scheint dieser Text letztlich eher kein Text zu sein, der den Ralph Loop selbst analysiert, sondern eher als ein Text zu verstehen zu sein, der auf die von Ihnen genannte bestimmte Gruppe insgesamt zielt.

Gerade bei einem solchen Text sollte die Festlegung des Gegenstands meines Erachtens jedoch umso präziser sein. Mit Formulierungen wie „so eine Gruppe gibt es“ oder „sie wird im In- und Ausland fortlaufend kritisiert“ lassen sich tatsächliche Behauptungen und überzeichnete Framings nur schwer sauber voneinander trennen; am Ende wird das leicht so gelesen, als würden unterschiedliche Personen und Kontexte in einen Topf geworfen. Schon der Maßstab „eine bestimmte Gruppe“ ist ein starkes Framing, und wenn deren Grenzen unklar bleiben, machen Antworten, die den Gegenüber einfach dort einordnen, die Debatte aus meiner Sicht nicht differenzierter, sondern gröber.

Außerdem wirkte es auf mich nicht konsistent, dass weiterhin Aussagen und Beispiele anderer Personen als Belege herangezogen werden, während ausgerechnet das Zitat von Jensen Huang als Autoritätsargument behandelt wird. Der Gründer von OpenClaw oder auch der CEO von YC sind ebenfalls Personen mit ihrem jeweiligen Kontext und ihrer jeweiligen Autorität; wenn Zitate der einen Seite als legitime Belege gelten, Zitate der anderen Seite aber sofort bedeutungslos werden, wirkt es am Ende unvermeidlich so, als ob der Maßstab weniger von der Aussage selbst als vom Sprecher abhängt. Tatsächlich ist es gut möglich, dass auch solche Personen auf Basis nicht unerheblicher Rechenressourcen und Nutzung experimentieren; wenn die eine Seite als Beleg für Kompetenz gelesen wird, die andere aber als Symbol eines Trugbilds, dann sollte zunächst dieses Unterscheidungskriterium klarer werden.

Auch ein PRD ist kein Allheilmittel, aber wenn man selbst diese Rolle als bloßes Trugbild abtut, passt das ebenfalls schlecht zu den iterativen Release-, Verifikations- und Korrekturprozessen in der tatsächlichen Entwicklung. Es mag problematische Kulturen geben, aber ich denke nicht, dass diese Abneigung unmittelbar eine Grundlage für weitreichende Verallgemeinerungen liefert. Dabei belasse ich es.

apkas 2026-04-15

Ich denke, Dinge wie oh-my-whatever und Token-Leaderboards sind letztlich alles nur Rauschen fürs Marketing.

Statt dass man ein Harness baut und dabei etwas wirklich Nützliches herauskommt, ist der Anteil viel höher, dass einfach nur ein noch komplexeres, auf Token-Verbrauch optimiertes Harness entsteht. Aber genau das hat die größte Sichtbarkeit und eignet sich kurzfristig am besten, um Aufmerksamkeit zu bekommen, deshalb scheinen sich auch viele Menschen dafür zu begeistern.

Ich habe auch schon Leute gesehen, die sagen, wer sich daran nicht anpassen kann, habe genau die Mentalität eines Losers. Manche benutzen das sogar, um zu behaupten, Korea sei schnell und SF langsam.

Ich denke aber, dass Dinge wie der Ralph Loop oder Harnesses am Ende alle in die internen Funktionen der Modelle aufgehen werden, und wenn es so weit ist, wird es keine Übertreibung sein zu sagen, dass die KI mit einem einzigen gut geschriebenen PRD alles löst.

Aber das, was jetzt gerade passiert — so zu tun, als würde man mit akrobatischen Verrenkungen rund um Harnesses etwas Großartiges leisten, und das dann immer wieder ausschlachten — unterscheidet sich meiner Meinung nach nicht groß von Klicker-Game-Süchtigen, die einfach nur number go up sehen wollen.

https://x.com/WillManidis/status/2021655191901155534 Der Beitrag ist schon etwas älter, ging aber in eine ähnliche Richtung.

tangokorea 2026-04-15

Bedeutet hohe Beliebtheit nicht auch, dass es umso näher am Durchschnitt liegt? Nicht auf hohem Niveau, sondern auf einem gewöhnlichen Niveau, mit dem man zufrieden sein kann .. Aber wenn das zu stark wird, ruiniert es das Tool. Es gibt immer noch Leute, die darüber streiten, ob nun C oder Java besser ist.

apkas 2026-04-15

Im Durchschnitt ist das tatsächlich ziemlich weit von Ralph Loop und Harness entfernt; ich würde sagen, es liegt eher auf dem Niveau von Vanilla Claude Code. Ehrlich gesagt: Wenn man die Grundgesamtheit etwas weiter fasst, würde ich sogar sagen, dass man schon über dem Durchschnitt liegt, wenn man nur Claude Code benutzt hat.

Wenn so etwas wie der Durchschnitt wirkt, dann bedeutet das meiner Meinung nach, dass ihr FOMO-Marketing erfolgreich war.