11 Punkte von brainer 2026-04-15 | 66 Kommentare | Auf WhatsApp teilen

Seit einigen Monaten begegnen mir, wenn ich die koreanische Entwicklerszene beobachte, seltsame Behauptungen wie „Der Token-Verbrauch ist gleichbedeutend mit Kompetenz“.
Dazu kommen dann noch ziemlich dreiste Aussagen, dass eine einzige gut gemachte PRD ausreiche und die AI den Rest komplett löse.

Anfangs hielt ich das einfach für die übliche Übertreibung, die man in Communities oft sieht. Aber als solche Behauptungen immer weiter auftauchten, als wären sie die Wahrheit, fragte ich mich kurzzeitig sogar, ob ich vielleicht den Anschluss verloren hatte.
(Vor allem, nachdem ich Dinge wie Oh-my-OpenCode gesehen hatte.)

Wenn man dann aber tatsächlich danach sucht, ist es schwer, auch nur ein einziges brauchbares Beispiel zu finden, und reproduzierbar ist das praktisch überhaupt nicht.

In der US-Frontier-Community gab es solche Behauptungen überhaupt nicht. Als dann OpenClaw erschien, erfolgreich wurde und OpenAI den Gründer direkt abwarb, war ich mir noch sicherer.
(Insbesondere, weil die zentrale Philosophie von OpenClaw HITL (Human In The Loop) ist.)

Ah, also bin nicht ich zurückgefallen, sondern in der koreanischen Community kursieren religiös anmutende Übertreibungen und Trugbilder.

Auch der Gründer von OpenClaw sagte gestern:

Man kann Code erzeugen und ihn die ganze Nacht laufen lassen, aber das Ergebnis ist am Ende einfach der beste Müll.
und

YC-CEO Garry Tan sagt, dass er dem zu 100 % zustimmt.

https://x.com/garrytan/status/2043738478220062813?s=20

In den vergangenen Monaten habe ich gesehen, wie mir solche trügerischen Behauptungen direkt und indirekt Schaden zufügen, und inzwischen fällt es mir schwer, das noch länger hinzunehmen.

Ich wünschte, die Leute, die so etwas behaupten, würden in die Schranken gewiesen.

Ich bin jemand, der AI sehr optimistisch sieht und Codex seit fünf Jahren nutzt.

Ich denke, dass eine solche vollständige Automatisierung irgendwann möglich sein wird. Ich halte es auch für möglich, dass es – wie vielerorts behauptet – schon nächstes Jahr so weit sein könnte.

Aber zumindest heute ist es noch nicht so weit.

66 Kommentare

 
choam2426 2026-04-30

Wenn diese Behauptung wahr wäre, hätten Anthropic, Google und OpenAI längst alle bestehende Software ersetzt und noch mehr.

 
winkagn 2026-04-24

Sogar intern scheint gerade diese seltsame Stimmung aufzukommen, dass man nur dann als leistungsstark gilt, wenn man viele Tokens verbraucht.
Wirklich, aus wessen Kopf ist das eigentlich entsprungen...

 
mayihelpyou 2026-04-16

Jedes Mal, wenn ich die Beiträge dieser Gruppe sehe, bekomme ich echt Ausschlag.

 
jyoung105 2026-04-15

Ich habe den Eindruck, dass dieser Text absichtlich so geschrieben wurde.
Allerdings gibt es auch diesen Aspekt.
Worüber wir alle vor drei Jahren gesprochen haben, war, dass die Kosten für AI am Ende günstiger werden würden.
Aber das war nicht so. Sie werden teurer. Sogar bei chinesischen AI-Modellen ist es genauso.
Deshalb beginnt in letzter Zeit die Methode, durch den Austausch von Modellen verschiedener Tiers innerhalb einer einzelnen Aufgabe Kostensenkungen zu erreichen, ebenso wie die Methode, Open Source, insbesondere gemma 4 (reasoning trace ist deutlich kürzer), lokal zu betreiben und für Agenten zu nutzen, zum Gesprächsthema zu werden. Das war anfangs etwas, wogegen alle waren, aber jetzt wirkt es äußerst vernünftig, und es entstehen viele entsprechende Bewegungen. Ebenso entwickelt sich AI derzeit zu einer Branche, die ein Kampf ohne richtige Antwort ist, aber von der Überzeugung getragen wird, dass der Sieger am Ende viel gewinnen wird.

Mein Fazit ist, dass es wohl in diesem Sinne gemeint ist.

Noise: Das zeigt sich auch sehr stark in den PR-Aktivitäten von AI-Frontier-Unternehmen. Bedeutet das dann, dass man diese Unternehmen nicht nutzt, weil sie etwas falsch gemacht haben? Nein, AI wird man ganz sicher nutzen. Man muss nur die Informationen rund um das Noise herausfiltern. Wenn man voller Unzufriedenheit ist, gilt das umso mehr.

Unnötige Aktionen: Das gilt ähnlich auch für Investments. Menschen, die beim Investieren Erfolge erzielt haben, haben mit hoher Wahrscheinlichkeit bereits Misserfolge erlebt. Mit einer Haltung wie „Ich werde auf keinen Fall Verlust machen“ ist es von vornherein schwer, überhaupt mit dem Investieren anzufangen; in Phasen fallender Märkte verspürt man dann nur Erleichterung darüber, nicht investiert zu haben, und Mitleid mit denen, die investiert haben, und in tatsächlichen Aufwärtsphasen empfindet man nur Frustration. Genauso ist es letztlich auch bei AI: Im Vorteil sind diejenigen, die es weiter beobachten, es ausprobieren und Verschiedenes testen. Ich spüre das noch stärker bei Nicht-Entwicklern. Es gibt viele Menschen, die zwar kein Entwicklungswissen hatten, es aber durch ständiges Anwenden und Forschen gelernt und dadurch bessere Software geschaffen haben. Solche Menschen mit „Eifer“ sind schwerer zu schlagen, als man denkt. Das spüre ich selbst sehr stark, und ich glaube, ich bemühe mich in jedem Moment darum, dass mein Eifer nicht verschwindet.

Mein Fazit ist: Auch ralph ist kein bloßes Trugbild, sondern eher eine Art Konzept des industrial engineering, eine im Hinblick auf test-time computing als Vorteil nachgewiesene Methode. Man kann natürlich sagen, es sei ein Trugbild, aber dennoch glaube ich, dass die Erfahrung, sich dafür interessiert und versucht zu haben, es zu reproduzieren, ein großer Gewinn für Sie sein wird.

 
apkas 2026-04-15

Es stimmt zwar, dass man das Rauschen herausfiltern muss, aber ich denke, man sollte mit Aussagen nach dem Muster „Wenn es unbequem ist, dann setz dich eben anders hin“ vorsichtig sein. Wenn schon das Äußern von Unzufriedenheit problematisiert wird und die Botschaft lautet: „Verhalte dich nicht wie jemand, der sich nicht anpassen kann, sondern passe dich schnell an und werde ein Gewinner“, dann führt das meiner Meinung nach zu dem blinden Ergebnisfetischismus, den wir heute sehen. Natürlich war das vermutlich nicht so gemeint.

Und ob es nun um Looping wie bei Ralph geht, um einen Ensemble-Ansatz, bei dem man abwechselnd mehrere Modelle befragt, oder um Subagent-Orchestrierung: Die Vorteile solcher Test-Time-Computing-Methoden sind bislang nicht bewiesen. LLMs wurde von Anfang an ein people-pleasing behavior eingeprägt, und wenn man sich die Ergebnisse aus solchen Prozessen genau ansieht, merkt man oft, dass nicht wirklich Dinge korrigiert werden, die einer Korrektur bedürfen, sondern dass Probleme erfunden und dann „behoben“ werden, nur weil man dem Modell gesagt hat, es solle etwas korrigieren.

Ich stimme zu, dass schnelle Erfahrung der größte Trumpf unserer Zeit ist. Aber ich finde, wenn das nicht nur als Werkzeug für den eigenen Vorteil genutzt, sondern darüber hinaus missbraucht wird, dann verdient das Kritik. Ich glaube, auch das Thema des ursprünglichen Beitrags ist: „Mir gefällt nicht, dass [einfach bedingungslos schnell, viel und vor allen anderen] so übertrieben dargestellt wird, als wäre das ein erfolgreiches KI-basiertes Entwicklungsszenario.“

 
jyoung105 2026-04-15

Ich habe Ihren Kommentar jetzt erst gesehen.
Offenbar wurden die Kommentare nicht richtig aktualisiert.
Vielen Dank für Ihre gute Rückmeldung.

Zunächst möchte ich auch meine Sicht darlegen.

Statt es problematisch zu finden, dass Unzufriedenheit geäußert wurde (ich selbst würde es nicht als Unzufriedenheit bezeichnen), würde ich mich freuen, wenn Sie es so verstehen könnten, dass auch ich zu diesem Phänomen meine Meinung geäußert habe. Da es unmöglich ist, eine Situation zu schaffen, mit der alle zufrieden sind, respektiere ich sowohl die Meinung des Autors des ursprünglichen Beitrags als auch die des Kommentators. Ich denke allerdings auch, dass meine Meinung respektiert werden sollte.

test-time computing ist meiner Ansicht nach bereits ein durch Forschung belegter Fall. Den ensemble-Ansatz sehe ich jedoch eher als eine Methode, die Grenzen der context window size zu umgehen, und weniger als ein Konzept von test-time computing. Das Problem aus dem Satz „Oft werden nicht Dinge behoben, die sich tatsächlich lohnen würden, sondern weil man zum Beheben aufgefordert wurde, werden Probleme erfunden, die es gar nicht gibt, und dann behoben.“ tritt eindeutig auf, weshalb es derzeit wohl die beste Lösung ist, das mit einem Harness so weit wie möglich zu blockieren.

Und schließlich stimme ich auch darin zu, dass es rund um das Wort „viral“ erheblich viel Rauschen gibt und viele Menschen es nicht mögen. Allerdings habe ich Zweifel daran, ob die Leute, die die Harnesses bauen, daraus tatsächlich einen privaten Vorteil ziehen können, da es ja gerade diejenigen sind, die sie als Open Source veröffentlicht haben. Selbst in der aktuellen Situation stellen sie sie kostenlos bereit und bekommen dafür noch Kritik — ob man das wirklich als eigennützig bezeichnen kann, erscheint mir fraglich. Natürlich stimme ich zu, dass es ein falsches und kritikwürdiges Verhalten wäre, wenn man Angst schüren würde, um etwas zu verkaufen.

Nochmals vielen Dank für Ihre Meinung!

 
brainer 2026-04-15

Es ist tatsächlich viel günstiger geworden als noch vor drei Jahren.
Zur Zeit von GPT-4 bekam man selbst als zahlender Nutzer oft schon nach ein paar Stunden die Meldung, es später noch einmal zu versuchen, aber heute passiert das selbst beim 22-Dollar-Tarif nicht mehr.

Die intellektuelle Leistungsfähigkeit pro Token ist auf ein kaum vergleichbares Niveau gestiegen.

Wichtiger ist aber, dass wir dabei noch mehr Token verbrauchen und den LLM-Anbietern noch mehr Geld zahlen (Jevons-Paradoxon).

Ich habe Ralph Loop durchaus ausprobiert.
Ich habe auch noch bessere sub-agent driven development ausprobiert.
Aber am Ende entsprach meine Erfahrung doch der Aussage des OpenClaw-Gründers.

Wenn echte vollständige Automatisierung möglich wird, braucht man so etwas wie Ralph Loop vermutlich auch nicht mehr mit Gewalt zusammenzukonstruieren.

Am wichtigsten ist, dass damit in der Praxis weder wirklich brauchbarer Code noch ein brauchbarer Service entstehen.

 
jyoung105 2026-04-15

Ich kann der Meinung des Autors in Teilen zustimmen.
Ich stimme bei der intellektuellen Leistungsfähigkeit pro Token und beim Preis im Vergleich zu GPT-4 zu.

Allerdings sind die Token-Preise nach einem Rückgang wieder gestiegen, und wenn man Inferenz-Token, den Token-Verbrauch pro Aufgabe und den Token-Verbrauch pro Person betrachtet, wird diese Belastung sowohl für einzelne Nutzer als auch für Betreiber von AI-Services ziemlich hart. Das ist der Grund, warum Unternehmen wie Cursor, Intercom, Shopify und Chroma begonnen haben, eigene Modelle auf Open-Source-Basis zu entwickeln. Es ist inzwischen so weit gekommen, dass man preislich praktisch gar nicht mehr konkurrenzfähig sein kann.

Tatsächlich war das, was man ralph nennt, weniger eine erzwungene Konstruktion als vielmehr ein while-basiertes Bash-Script. Die Struktur ist entsprechend einfach. Was wir hier verstehen müssen, ist wohl, dass es letztlich ein Kampf darum ist, ob sich das systematisieren lässt. Auch Automatisierung ist ein Prozess, bei dem man die Intent exakt extrahiert, die Aufgabenteilung nicht schlampig, sondern präzise vornimmt und dies dann korrekt ausführt, sodass es fehlerfrei und vollständig implementiert wird – und falls nicht, welche Teile noch ausgeführt werden müssen.

Womit ich allerdings übereinstimme: Es wäre schön, wenn all diese Arbeiten mit einem einzigen „Klick“ erledigt wären, aber wie Sie vermutlich selbst gemerkt haben, ist das überhaupt nicht der Fall. Vielmehr wirkt es derzeit so, als müsse man noch mehr Setup vornehmen als bei der eigentlichen Code-Arbeit, und genau das scheint das aktuelle Problem zu sein. Außerdem gibt es beim Service im Allgemeinen oft nichts, das man unmittelbar spürbar wahrnimmt.

Was ich jedoch ganz klar empfinde: Die meisten Menschen sind nicht besonders gut in documentation. Weil sie Dinge nicht gut strukturieren können, fällt es ihnen schwer, etwas zu systematisieren, und deshalb habe ich oft beobachtet, dass sie mit solchen Aufgaben erhebliche Schwierigkeiten haben. Und AI ist auch nicht perfekt. In diesem Punkt empfinde ich das als Chance. Ich denke, dass sich zwischen den Menschen, die diese Arbeit kontinuierlich gemacht haben, und denen, die es nicht getan haben, ein ziemlich großer Unterschied ergeben wird. Menschen mit einer gewissen Widerstandsfähigkeit passen sich schnell an, während andere, die das aus verschiedenen Gründen nicht konnten, weiter zurückfallen und von Angstgefühlen überwältigt werden. Eigentlich sollte das aber, wie der Autor sagt, nichts sein, wovor man „Angst“ haben müsste, oder? Genau das wäre die bessere Richtung.

 
brainer 2026-04-15

Was ich sagen will: Die while loop ist ein erzwungenes Konstrukt.
Ursprünglich ist sie überhaupt nur deshalb entstanden, weil LLMs bei agentischen Aufgaben nicht gut sind und deshalb frühzeitig beendet haben (Rückgabe des EOS-Tokens).
Wenn wirklich ein Modell erscheint, das an eine ultimative AGI heranreicht, wird man auch keine while loop mehr brauchen.

Meine Fähigkeit zur Dokumentation mag unzureichend sein, aber bei Garry Tan oder Peter Steinberger ist das sicher nicht so.
Wenn das Problem darin liegt, dass das LLM nicht richtig funktioniert, dann genügt es, eine wirklich reproduzierbare Best-Practice-Demo zu zeigen.
Aber ich habe so etwas noch kein einziges Mal gesehen.

 
cloverhearts 2026-04-15

Ich stimme der Meinung des Autors ebenfalls zu.
Es scheint auch einen Aspekt zu geben, bei dem Verzerrungen dadurch entstehen, dass LLMs aufgrund der erfahrungsbezogenen Wahrnehmung als Systeme erscheinen, die chatten und kommunizieren können.

 
jyoung105 2026-04-15

Vielen Dank für Ihre gute Anmerkung.
Welche Art von Best-Practice-Demo wäre dann Ihrer Meinung nach erforderlich?
Ich möchte Sie um Ihre Einschätzung bitten, anhand welcher Aufgabe und welcher Implementierung sich beurteilen ließe, ob der Ralph Loop eine Illusion ist oder nicht.

 
brainer 2026-04-15

Man lässt den Ralph Loop mit nur einem nahezu perfekten PRD laufen und schließt die Entwicklung auf Production-ready-Niveau ab.
Und zwar so, dass es für niemanden offensichtlich wie AI Slop aussieht.

 
jyoung105 2026-04-15

Ah, also: Reicht es, mit einem nahezu perfekten PRD den Ralph Loop laufen zu lassen, um ein gewisses Maß an Produkt daraus zu machen?
Würde es reichen, den AI-Chat von Channel Talk zu bauen?

Und ich möchte noch eine Sache fragen.
Wäre es in Ordnung, wenn man dabei etwas wie ein Harness aufsetzt und so vorgeht?

 
brainer 2026-04-15

Ja, Harnesse oder Multi-Agent, Sub-Agent – das ist mir egal.

 
jyoung105 2026-04-15

Vielen Dank für Ihre Meinung!
Stimmt, es wäre schön, so ein Beispiel zu erstellen, haha

 
minislively 2026-04-18

Ehrlich gesagt fand ich bei diesem Text weniger die Problemstellung selbst problematisch als vielmehr die Entwicklung der Argumentation.

Formulierungen wie „Token-Nutzung ist gleich Kompetenz“ oder „Ein einziges gut gemachtes PRD, und die AI löst alles“ sind ziemlich starke Behauptungen, aber es bleibt unklar, wer das wo und in welchem Kontext tatsächlich so gesagt haben soll. Aus Leserperspektive wirkt das daher weniger wie eine Kritik an einer realen Strömung, sondern eher wie ein Strohmann-Argument, bei dem einige extreme Positionen mit unklarer Repräsentativität gebündelt und dann widerlegt werden.

Gerade bei denjenigen, die tatsächlich Tools bauen und Workflows verfeinern, einschließlich der om-Reihe, habe ich fast nie erlebt, dass sie im Sinne von „Mit einem einzigen PRD ist alles gelöst“ sprechen. Im Gegenteil: Sie wiederholen fortlaufend Releases, Überarbeitungen und Validierung. Das setzt meines Erachtens gerade voraus, dass menschliches Urteilsvermögen und Eingreifen weiterhin unverzichtbar sind.

Deshalb sollte man umso vorsichtiger sein, denn wenn solche Darstellungen falsch gelesen werden, kann es so wirken, als hätten bestimmte Builder oder Entwickler Dinge gesagt, die sie in Wirklichkeit nie gesagt haben. So vorzugehen ist meiner Meinung nach weniger eine gesunde Kritik, sondern eher ein Angriff auf Basis eines überzeichneten Framings.

Bei der Token-Nutzung ist es ähnlich. Sie ist kein absoluter Indikator für Kompetenz, aber man kann sie deshalb auch nicht einfach als völlig bedeutungslose Zahl abtun. Wenn die Unterschiede im Verbrauch sehr groß sind, kann das nicht bloß Verschwendung sein, sondern auch ein Unterschied in Suchaufwand, Experimentierumfang und Validierungsaufwand — und sich dadurch in einer unterschiedlichen realen Arbeitsdichte niederschlagen. Tatsächlich hat Jensen Huang ja ebenfalls gesagt, dass man mehr als die Hälfte seines Jahresgehalts in Tokens verbrauchen sollte.
https://www.youtube.com/shorts/XBnFPuru4xA

Ein gutes PRD ist ebenfalls kein Allheilmittel, sondern ein Hebel. Deshalb ist am Ende nicht die einfache Gegenüberstellung entscheidend, ob „Tokens gleich Kompetenz“ sind oder nicht, sondern nach welchen Maßstäben wir künftig Problemlösungsfähigkeit unter Einsatz von AI bewerten wollen.

 
shaun0927 2026-04-18

Ich stimme dem, was Sie geschrieben haben, vollkommen zu.
Tatsächlich ist die Aussage „Der Token-Verbrauch ist gleichbedeutend mit Kompetenz“ offensichtlich falsch und ein verzerrter Deutungsrahmen.

Vielmehr sollte man es aus der Perspektive betrachten, dass einem die Bedeutung des Token-Verbrauchs erst in dem Moment bewusst wird, in dem man erkennt, dass die Begrenztheit von Rechenressourcen – einschließlich der menschlichen – der einzige Flaschenhals ist.

 
brainer 2026-04-18

Ich weiß zwar, welche Gruppe solche Behauptungen aufstellt, habe sie aber bewusst nicht ausdrücklich erwähnt, weil es rechtliche Probleme geben könnte.
Es gibt bekannte Unternehmen, die sogar den Token-Verbrauch messen, und auch unten gibt es jemanden, der das anonym erwähnt.

Auch auf GeekNews sieht man Beiträge, in denen Leute ihren eigenen Token-Verbrauch beinahe prahlerisch hervorheben.

Die Menschen, die solche Behauptungen aufstellen, sind nicht die Mehrheit.
Aber im koreanischen AI-Umfeld vertreten einige lautstarke Personen aus dem geisteswissenschaftlichen Bereich solche Thesen, und dass Garry Tan seit einigen Tagen immer wieder fat harness kritisiert, ist wohl ein Beleg dafür, dass diese quasi religiöse Behauptung aus Korea inzwischen bis in die USA gelangt ist.

Sich auf die Aussagen von Jensen Huang zu berufen und sie als Wahrheit darzustellen, ist geradezu ein typischer autoritätsgläubiger Sprachstil.
Jensen Huang war vor Jahrzehnten ein Ingenieur, der Grafikkarten entwickelte; heute ist er kein Ingenieur mehr und auch kein AI-Experte.
Bei der Korrelation stimme ich zu, aber die Behauptung der Gruppe, von der ich spreche, läuft am Ende nur darauf hinaus, nutzlos Ralph zu drehen.

Um die Wahrheit zu sagen: Selbst im ursprünglichen o1-Paper von OpenAI, das test-time compute erstmals propagierte, wird klar gesagt, dass es nicht immer besser wird, wenn man es weiter erhöht, oder dass das nur in manchen Fällen gilt.
Und selbst dort geht es um reasoning effort, nicht darum, einen Ralph Loop laufen zu lassen.
Auch im Prompt Guide für GPT-5.4 steht ausdrücklich, dass höherer reasoning effort nicht immer besser ist.

https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance

Außerdem wird beim Design eher empfohlen, den reasoning effort zu reduzieren.

https://developers.openai.com/blog/…

Ich sage das, weil es Leute gibt, die behaupten, PRD sei ein Allheilmittel, obwohl es das nicht ist.

 
minislively 2026-04-19

Der Titel fragt zwar klar danach, was man von dem Trugbild namens Ralph Loop hält, aber der eigentliche Text behandelt dieses Thema nicht konkret, sondern verzweigt sich in viel breitere und andere Zusammenhänge, sodass insgesamt der Eindruck entsteht, dass der Text nicht wirklich zum Titel passt.

Deshalb wollte ich nicht darüber streiten, ob „so eine Person tatsächlich existiert oder nicht“, sondern darauf hinweisen, dass der Text extrem zugespitzte Behauptungen mit unklarer Quelle und unklarem Kontext zusammenbindet und dann widerlegt, weshalb er sich wie eine Strohmannkritik liest.

Die Antwort auf meinen Kommentar hat diesen Punkt allerdings ebenfalls nicht direkt erklärt, sondern ist ehrlich gesagt eher dadurch aufgefallen, dass sie fortlaufend andere Personen, andere Diskurse und andere Beispiele heranzieht, sodass es für mich eher wie eine Verwischung des eigentlichen Streitpunkts wirkte.

Besonders selektiv wirkte auf mich auch, dass Sie das Zitieren von Äußerungen prominenter Personen als autoritäre Rhetorik kritisieren, in der Antwort dann aber wiederum Garry Tan, OpenAI-Dokumentation und GPT-Guides als Belege heranziehen.

Ich kann nachvollziehen, dass eine Kultur unangenehm wirken kann, in der mit hohem Token-Verbrauch übertrieben geprahlt wird. Davon getrennt halte ich es aber für eine andere Form der Überzeichnung, auch diejenigen in denselben Rahmen zu stecken, die tatsächlich durch wiederholtes Experimentieren, Verifizieren und Überarbeiten ihre Tools und Workflows verfeinern.

 
brainer 2026-04-19

Beurteilen Sie einen Text nur nach der Überschrift?
Was halten Sie dann von dem Paper "Attention Is All You Need"?

Garry Tan hat zuletzt mit guten LLM-Skills wie GStack gezeigt, wie kompetent er im Umgang mit AI ist.
Beim Gründer von OpenClaw ist es genauso, und OpenAI ist der offizielle Leitfaden des Unternehmens, das die LLM-Forschung und -Industrie anführt.

Und im Gegensatz dazu Jensen Huang? Bitte sagen Sie mir nicht, dass der CEO eines Unternehmens, das Spitzhacken verkauft, sich deshalb gut mit Gold auskennt.
Jensen Huang wiederholt letztlich auch nur, was jemand anderes sagt.
Wenn das Whataboutism sein soll, habe ich dazu nichts mehr zu sagen.

Auch Menschen, die Tools und Workflows verfeinern, in denselben Rahmen zu stecken, halte ich für eine andere Form der Übertreibung.

Ich bin genau so jemand, der diese Tools und Workflows verfeinert — wollen Sie damit sagen, dass ich Self-Diss betrieben habe?

 
minislively 2026-04-19

Ich habe mir nicht allein anhand des Titels ein Urteil gebildet, sondern wollte darauf hinaus, wie stimmig Titel und Text inhaltlich zusammenpassen.

Und worauf ich hinauswollte, war nicht die Frage, ob Garry Tan oder OpenAI mehr Autorität haben als Jensen Huang, sondern dass es auf mich nicht konsistent wirkte, einerseits Zitate anderer als Autoritätsargument zu kritisieren und sich in der eigenen Antwort dann wiederum auf eine andere Autorität zu stützen.

Und schließlich war die Formulierung „auch die Leute, die Tools und Workflows verfeinern, in denselben Frame zu stecken“ nicht auf eine bestimmte Person gemünzt, sondern sollte ausdrücken, dass die Art der Darstellung im Text so gelesen werden kann. Das sofort als „War das als Selbst-Diss gemeint?“ aufzufassen, scheint mir die Reichweite meines Kommentars etwas zu weit auszulegen.

 
minislively 2026-04-19

Und wenn Sie der Ansicht sind, dass Titel und Haupttext voneinander abweichen können, würde mich interessieren, ob dieser Beitrag dann eher nicht als eine Analyse des Ralph Loop selbst zu verstehen ist, sondern als ein Text, der auf die von Ihnen erwähnte bestimmte Gruppe insgesamt abzielt.

 
brainer 2026-04-19

Sie haben schließlich die Aussage von „Jenseunghwang“ zitiert, der nicht einmal ein AI-/LLM-Experte ist.

Ja, der Beitrag richtet sich tatsächlich gegen eine bestimmte Gruppe.
Ich habe dabei das wohl repräsentativste und zugleich seltsamste Gerede daraus erwähnt: PRD + Ralph Loop.

Ich weiß nicht, ob Sie nicht wissen, dass es so eine Gruppe gibt, oder ob Sie selbst zu dieser Gruppe gehören und nur so tun, als wüssten Sie von nichts.
Es gibt gute Gründe dafür, dass diese Gruppe im In- und Ausland immer wieder kritisiert wird.
Wo kein Feuer ist, steigt schließlich kein Rauch auf.

 
minislively 2026-04-19

Und persönlich fand ich diesen Beitrag diesmal ziemlich enttäuschend.
Ich hatte GeekNews immer deshalb geschätzt, weil man dort eher auf Beiträge stößt, die einem Informationen vermitteln, die man noch nicht kannte, neue Perspektiven eröffnen oder den eigenen Horizont erweitern, statt auf Texte, die gezielt auf bestimmte Personen oder Gruppen abzielen.
Deshalb habe ich es diesmal umso bedauerlicher empfunden, dass die Darstellung von vornherein auf einer bestimmten Gruppe als Prämisse aufbaut.

Zumindest für mich ist GeekNews weniger ein Ort, an dem jemand in ein bestimmtes Framing gepackt und gezielt angegangen wird, sondern eher ein Raum, der durch konkretere Informationen und mehr Kontext dazu beiträgt, das eigene Denken zu erweitern. Deshalb blieb bei diesem Beitrag für mich weniger die Behauptung selbst problematisch, sondern mehr die Art, wie sie entfaltet wurde. Ich belasse es dabei.

 
brainer 2026-04-19

Wie oft soll ich das noch sagen.

Bestimmte Gruppen oder Personen direkt ins Visier zu nehmen, halte ich aus meiner Sicht nicht für gut.

Der YC-CEO und der Gründer von OpenClaw haben selbst bewiesen, dass sie Menschen sind, die man durchaus als AI-Experten bezeichnen kann.
Mit Jensen Huang ist das etwas anderes.

Ich habe PRD nie als Hirngespinst bezeichnet. Bitte achtet auf den Kontext.

Jetzt, da sich solche Behauptungen über ein Hirngespinst ausgebreitet haben, geht es nicht mehr nur um meinen persönlichen Ärger, sondern um etwas, das mit der Entwicklung von AI in Südkorea und darüber hinaus mit dem Fortschritt der Menschheit zu tun hat.
Sollten wir diese Alchemie nicht korrigieren, bevor diese Leute noch größer werden und auf der anderen Seite Einfluss gewinnen?

Wenn man nicht gemeint ist, kann man es einfach übergehen.
In den anderen Kommentaren zu diesem Beitrag haben mir bereits einige zugestimmt, und Leute aus der Gruppe, von der ich spreche, sind gekommen, um mich anzugreifen.

 
minislively 2026-04-20

Und noch ein Punkt: Formulierungen wie „KI in Südkorea“, „Fortschritt der Menschheit“ oder „man müsse die Alchemie richtigstellen“ wirkten auf mich so, als stünde zunächst ein etwas zu großer Anspruch im Vordergrund. Ich denke, man kann durchaus ein solches Problembewusstsein haben. Allerdings hatte ich den Eindruck, dass Aussagen auf diesem Niveau viel überzeugender vermittelt werden, wenn man statt Menschen in einer Community pauschal zusammenzufassen und zu kritisieren, konkrete Beispiele oder Arbeiten sowie spezifischere Prüfmaßstäbe mitliefert.

Außerdem wirkte es auf mich nicht ganz konsistent, dass Aussagen des YC-CEO oder des Gründers von OpenClaw als bedeutsame Belege akzeptiert werden, während ausgerechnet ein Zitat von Jensen Huang als bloßer Autoritätsglaube behandelt wird. Am Ende las es sich für mich so, als hänge der Maßstab dafür, wessen Worte als Beleg gelten und wessen als bedeutungslos verworfen werden, weniger von der Aussage selbst als von der Person des Sprechers ab. Jensens Worte müssen kein ausschlaggebender Beleg sein, aber nur dieses Zitat besonders so zu behandeln, als sei es wertlos, erschien mir als etwas überzogene Auslegung.

Letztlich denke ich, dass solche Behauptungen für andere nur dann wirklich nachvollziehbar werden, wenn nicht nur Kritik wiederholt wird, sondern zugleich Beispiele oder Arbeiten vorgelegt werden, auf die man sich direkt beziehen und die man selbst prüfen kann. Nur so kann die Richtung, die Sie hier ansprechen, nicht als bloße Ablehnung, sondern als tatsächlich überzeugende Problemformulierung gelesen werden. Wenn es solche Ergebnisse gibt, würde ich sie mir dann auch einmal aktiv ansehen und sie bei Bedarf selbst ausprobieren.

 
brainer 2026-04-20

Hören Sie bitte mit den Tautologien auf. Sie behaupten, ich hätte Dinge gesagt, die ich nicht gesagt habe, und stellen erneut Fragen zu Inhalten, die ich bereits widerlegt habe.

 
minislively 2026-04-20

Ehrlich gesagt wirkt es auf mich, je mehr ich den Beitrag und die Antworten zusammen lese, weniger wie ein Text für Information oder Analyse, sondern eher wie ein Text, in dem das Bedürfnis überwiegt, einen bestimmten Strom zu verurteilen.

Wenn Sie wirklich präzise Kritik üben wollten, hätten Sie meiner Meinung nach klarer darstellen können, welche konkreten Beiträge es in der Community tatsächlich gab und wer in welchem Kontext welche Behauptung aufgestellt hat. Statt solcher konkreten Beispiele fassen Sie jedoch zuerst alles mit großen Formulierungen wie „die koreanische Entwicklerszene“, „solche Gruppen“ oder „religiös wirkende Übertreibung“ zusammen; dadurch bleiben beim Lesen eher Assoziationen und Frames hängen als die tatsächlichen Aussagen.

Gerade die Art, Anspielungen zu machen, die an die om-Reihe erinnern, und dann gleichzeitig zu sagen, man ziele eigentlich nicht direkt auf eine bestimmte Gruppe oder Person, lässt es weniger wie einen informativen Text wirken als wie den starken Wunsch, irgendjemanden breitflächig zu verurteilen.

Außerdem wirkt es, wenn Sie auf Reaktionen mit Formulierungen antworten wie „Wenn Sie nicht gemeint sind, können Sie einfach weitergehen“ oder „Entweder stimmen Sie zu, oder die Leute aus der Gruppe, von der ich spreche, sind gekommen, um anzugreifen“, eher wie eine Form des Abstempelns als wie eine Diskussion. Wenn man einen Text von vornherein mit einem so starken Frame eröffnet, ist es nur natürlich, dass Ablehnung und Widerspruch entstehen. Wenn man diese Reaktionen dann wiederum als eine bestimmte Gruppe zusammenfasst und interpretiert, wird am Ende jede Gegenrede in den Frame hineingezogen.

Ich denke, genau diese Art des Schreibens steht weniger für die Logik eines Textes, der Informationen und Kontext teilt, sondern eher für die Logik, ein communitytypisches Gegeneinander zu erzeugen. Und ehrlich gesagt finde ich es besonders schade, weil so eine Art von Beitrag auf Plattformen wie X oder Threads vielleicht vertraut sein mag, aber zumindest auf mich deutlich weiter von der Atmosphäre entfernt wirkt, die ich bei GeekNews erwartet hatte.

Ich habe GeekNews eher als einen Ort wahrgenommen, an dem nicht pauschal große Gruppen verurteilt werden, sondern an dem eigene Erfahrungen, konkrete Informationen und Kontexte geteilt werden, die den Horizont erweitern. Deshalb bleibt bei diesem Beitrag für mich weniger wegen der Behauptung selbst als vielmehr wegen der Art, wie sie behandelt wurde, ein stärkeres Gefühl des Bedauerns zurück.

 
minislively 2026-04-19

Dann scheint dieser Text letztlich eher kein Text zu sein, der den Ralph Loop selbst analysiert, sondern eher als ein Text zu verstehen zu sein, der auf die von Ihnen genannte bestimmte Gruppe insgesamt zielt.

Gerade bei einem solchen Text sollte die Festlegung des Gegenstands meines Erachtens jedoch umso präziser sein. Mit Formulierungen wie „so eine Gruppe gibt es“ oder „sie wird im In- und Ausland fortlaufend kritisiert“ lassen sich tatsächliche Behauptungen und überzeichnete Framings nur schwer sauber voneinander trennen; am Ende wird das leicht so gelesen, als würden unterschiedliche Personen und Kontexte in einen Topf geworfen. Schon der Maßstab „eine bestimmte Gruppe“ ist ein starkes Framing, und wenn deren Grenzen unklar bleiben, machen Antworten, die den Gegenüber einfach dort einordnen, die Debatte aus meiner Sicht nicht differenzierter, sondern gröber.

Außerdem wirkte es auf mich nicht konsistent, dass weiterhin Aussagen und Beispiele anderer Personen als Belege herangezogen werden, während ausgerechnet das Zitat von Jensen Huang als Autoritätsargument behandelt wird. Der Gründer von OpenClaw oder auch der CEO von YC sind ebenfalls Personen mit ihrem jeweiligen Kontext und ihrer jeweiligen Autorität; wenn Zitate der einen Seite als legitime Belege gelten, Zitate der anderen Seite aber sofort bedeutungslos werden, wirkt es am Ende unvermeidlich so, als ob der Maßstab weniger von der Aussage selbst als vom Sprecher abhängt. Tatsächlich ist es gut möglich, dass auch solche Personen auf Basis nicht unerheblicher Rechenressourcen und Nutzung experimentieren; wenn die eine Seite als Beleg für Kompetenz gelesen wird, die andere aber als Symbol eines Trugbilds, dann sollte zunächst dieses Unterscheidungskriterium klarer werden.

Auch ein PRD ist kein Allheilmittel, aber wenn man selbst diese Rolle als bloßes Trugbild abtut, passt das ebenfalls schlecht zu den iterativen Release-, Verifikations- und Korrekturprozessen in der tatsächlichen Entwicklung. Es mag problematische Kulturen geben, aber ich denke nicht, dass diese Abneigung unmittelbar eine Grundlage für weitreichende Verallgemeinerungen liefert. Dabei belasse ich es.

 
apkas 2026-04-15

Ich denke, Dinge wie oh-my-whatever und Token-Leaderboards sind letztlich alles nur Rauschen fürs Marketing.

Statt dass man ein Harness baut und dabei etwas wirklich Nützliches herauskommt, ist der Anteil viel höher, dass einfach nur ein noch komplexeres, auf Token-Verbrauch optimiertes Harness entsteht. Aber genau das hat die größte Sichtbarkeit und eignet sich kurzfristig am besten, um Aufmerksamkeit zu bekommen, deshalb scheinen sich auch viele Menschen dafür zu begeistern.

Ich habe auch schon Leute gesehen, die sagen, wer sich daran nicht anpassen kann, habe genau die Mentalität eines Losers. Manche benutzen das sogar, um zu behaupten, Korea sei schnell und SF langsam.

Ich denke aber, dass Dinge wie der Ralph Loop oder Harnesses am Ende alle in die internen Funktionen der Modelle aufgehen werden, und wenn es so weit ist, wird es keine Übertreibung sein zu sagen, dass die KI mit einem einzigen gut geschriebenen PRD alles löst.

Aber das, was jetzt gerade passiert — so zu tun, als würde man mit akrobatischen Verrenkungen rund um Harnesses etwas Großartiges leisten, und das dann immer wieder ausschlachten — unterscheidet sich meiner Meinung nach nicht groß von Klicker-Game-Süchtigen, die einfach nur number go up sehen wollen.

https://x.com/WillManidis/status/2021655191901155534 Der Beitrag ist schon etwas älter, ging aber in eine ähnliche Richtung.

 
tangokorea 2026-04-15

Bedeutet hohe Beliebtheit nicht auch, dass es umso näher am Durchschnitt liegt? Nicht auf hohem Niveau, sondern auf einem gewöhnlichen Niveau, mit dem man zufrieden sein kann .. Aber wenn das zu stark wird, ruiniert es das Tool. Es gibt immer noch Leute, die darüber streiten, ob nun C oder Java besser ist.

 
apkas 2026-04-15

Im Durchschnitt ist das tatsächlich ziemlich weit von Ralph Loop und Harness entfernt; ich würde sagen, es liegt eher auf dem Niveau von Vanilla Claude Code. Ehrlich gesagt: Wenn man die Grundgesamtheit etwas weiter fasst, würde ich sogar sagen, dass man schon über dem Durchschnitt liegt, wenn man nur Claude Code benutzt hat.

Wenn so etwas wie der Durchschnitt wirkt, dann bedeutet das meiner Meinung nach, dass ihr FOMO-Marketing erfolgreich war.

 
tangokorea 2026-04-15

Was halten Sie von dem Trugbild namens Ralph Loop?

Sollte man das als den Beginn eines neuen Zeitalters der Alchemisten betrachten?

 
cafedead 2026-04-15

Ich stimme zu.

 
brainer 2026-04-15

Dem stimme ich voll und ganz zu
Ich persönlich denke einfach, dass das Leute sind, die in Korea so etwas wie ähnliche Influencer werden wollen.

Danke, dass Sie diesen guten Artikel geteilt haben.
AI-Coding, HITL hat auch Suchtpotenzial.

Wenn man so etwas sieht, scheint es wirklich einen Instinkt im Menschen zu geben, der es liebt, etwas zu erschaffen.

 
brainer 2026-04-15

Nicht spötteln — wenn Sie es nicht wissen, schlagen Sie es wenigstens nach.

OpenAI Codex als Chrome-Erweiterung nutzen
Erläuterung und Erfahrungsbericht zu Copilot

 
laeyoung 2026-04-16
  1. Wow, schön zu sehen, dass jemand meinen Beitrag von vor 5 Jahren gelesen hat 🙌
  2. Damals gab es Diskussionen zum Code-Urheberrecht, aber inzwischen ist das alles verschwunden. Nicht, weil es sauber gelöst wurde, sondern eher, weil man es einfach mit schierer Menge überdeckt hat 😶‍🌫️
 
click 2026-04-15

Codex vor 5 Jahren ...? Selbst ChatGPT wurde erst 2022 veröffentlicht, also sind noch nicht einmal 5 Jahre vergangen...
Haben Sie den Ask-GN-Text vielleicht auch mit KI geschrieben, sodass sich eine Halluzination eingeschlichen hat?

 
mammal 2026-04-15

Codex selbst ist schon alt. Ich erinnere mich noch, dass ich damals auf GeekNews davon gelesen und mich für die GPT-3-Preview angemeldet habe.

 
jyoung105 2026-04-15

Könnte jemand erklären, in welchem Zusammenhang GPT-3 Preview und Codex standen?
Meinen Sie, dass es damals bereits Codex gab? Oder dass es eine KI zum Schreiben von Code gab und dass das Codex war?

 
mammal 2026-04-15

Unter den alten, inzwischen eingestellten Modellreihen gehören die Serien code-davinci-* und code-cushman-* zu den Codex-Modellen. Die Marke Codex selbst ist schon ziemlich alt.

https://www.youtube.com/watch?v=SGUCcjHTmGY

 
jyoung105 2026-04-15

Natürlich ist der Codex-Name nicht identisch, aber es scheint, dass es ein Code-Modell gegeben hat.

 
jyoung105 2026-04-15

Wow, das ist ziemlich schockierend. Ich bin auch jemand, der OpenAI seit den Zeiten von gpt-2, dall-e und gym nutzt, aber den Modellnamen codex habe ich zum ersten Mal gesehen. Vielen Dank für den Hinweis!

 
cafedead 2026-04-15

Ergänzend dazu: codex wurde im Mai 2025 veröffentlicht.

 
cafedead 2026-04-15

😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂

 
brainer 2026-04-15

Wie wäre es, wenn du wenigstens einmal bei NamuWiki nachschlägst, bevor du zeigst, dass du es nicht weißt?

Ach ja, übrigens sagt ChatGPT Atlas, dass mein Beitritt jetzt 1812 Tage her ist.

 
click 2026-04-15

Aha, also sind das heutige Codex und das damalige Codex unterschiedliche Arten von Produkten.
Das damalige Codex war der Name von OpenAIs codezentriertem LLM-Modell,
und unter derselben Marke wurde nun die aktuelle Codex-Plattform gelauncht.

Ich habe damals GitHub Copilot verwendet und wusste nur, dass das zugrunde liegende Modell GPT-3 war,
ich wusste aber nicht, dass für den Modellnamen die Marke Codex verwendet wurde.

 
brainer 2026-04-15

Codex ist kein Modell.
Bezeichnungen wie GPT-5.3-Codex wurden erst in jüngerer Zeit eingeführt.

Es ist der Name einer VSCode-Erweiterung, die ein für das Programmieren feinabgestimmtes Modell auf Basis von GPT-3 nutzbar machte.
(Das Web nutzt praktisch niemand.)
Dasselbe Modell und dieselbe Methode wurden auch bei GitHub Copilot verwendet.

Damals waren sinnvolle Chats noch nicht möglich, also war es im wörtlichen Sinne dasselbe wie die Vorhersage des nächsten Worts.
Wenn man einfach eine Baekjoon-Aufgabe eingab, wirkte es nur wie die ultimative Autovervollständigung, die eine solve-Funktion schreibt.
(Was es bei Cursor gab, hat OpenAI also zuerst gemacht.)

 
click 2026-04-15

Das, was Sie erwähnt haben, scheint eine VSCode-Erweiterung zu sein, die das Codex-Modell verwendet (meinen Sie vielleicht diese hier? https://github.com/Implicate-dev/codex-vscode)
Wenn man sich die 2021 von Mark Chen veröffentlichte Arbeit ansieht, scheint OpenAI Codex als Namen eines feinabgestimmten Modells veröffentlicht zu haben.

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities
Quelle: https://arxiv.org/abs/2107.03374

 
brainer 2026-04-15

Scheint zu stimmen, aber es ist schon lange her, deshalb erinnere ich mich nicht mehr genau.

 
brainer 2026-04-15

Was halten Sie von dem Trugbild namens Ralph Loop?

https://www.youtube.com/watch?v=SGUCcjHTmGY

 
runableapp 2026-04-19

Ich erinnere mich, dass ich irritiert war, als ich auf nicht-koreanischen, sondern US-amerikanischen Websites die Behauptung gesehen habe, der Token-Verbrauch müsse hoch sein. Nicht nur in Korea, sondern auch in den USA wimmelt es von seltsamen, schwer nachvollziehbaren Behauptungen und aufgebauschten Geschichten.

 
brainer 2026-04-19

In Korea gab es solche Behauptungen schon vor fast einem halben Jahr; in letzter Zeit scheint darüber besonders heftig gesprochen zu werden.
Leute wie Garry Tan sagen auch sehr deutlich, dass das nicht stimmt.

 
jeeeyul 2026-04-19

Das ist zwar eine etwas andere Diskussion, aber ich denke schon, dass es besser ist, auf günstigerer Hardware mit mehr Tokens zu verifizieren, als eine teure Cloud-API zu nutzen und dabei Tokens zu sparen.

Mit der Weiterentwicklung von Agenten und Harnesses scheinen Strukturen bevorzugt zu werden, die wirtschaftlich mehr Reviews und Verifikation ermöglichen, statt sich auf die Präzision und Größe des Modells zu stützen.

Seit dem Auftauchen von GDN und Mamba gilt das meiner Meinung nach ganz besonders.

 
brainer 2026-04-19

Persönlich fällt es mir schwer, dem zuzustimmen.
Bei Opus ist es zwar übermäßig teuer, aber bei einem Preisniveau wie bei GPT-5.4 wäre es aus verschiedenen wirtschaftlichen Gründen besser, 5.4 ein paarmal laufen zu lassen, als den ganzen Tag ein günstiges chinesisches Modell zu betreiben.

 
vkehfdl1 2026-04-19

Meiner Ansicht nach liegt der Grund, warum selbst Pro-Gamer mit der höchsten Lerneffizienz der Welt beim Erlernen von Neuem so oft scheitern, nicht einfach daran, dass ihnen die Fähigkeiten fehlen.
Ich denke eher das Gegenteil.
Weil sie sich über einen zu langen Zeitraum und auf zu hohem Niveau an die bestehende Meta optimiert haben, geraten sie im Angesicht von Veränderungen oft in größere Schwierigkeiten.
Am Anfang werden alle Entscheidungen bewusst getroffen.
Doch mit wiederholtem Lernen werden Entscheidungen, die anfangs im Großhirn verarbeitet wurden, nach und nach automatisiert, und Könner erreichen einen Punkt, an dem der Körper schneller reagiert als der Gedanke.
Ich halte diese Automatisierung eindeutig für eine enorme Stärke.
Allerdings glaube ich, dass sich diese Stärke in dem Moment, in dem sich die Meta ändert, eher in eine starke Trägheit verwandeln kann.
Sichtkontrolle, Teamkämpfe und das Gefühl für Makrospiel, die in der alten Meta die richtige Antwort waren, prägen sich über Tausende von Stunden in den Körper ein.
Deshalb glaube ich, dass der Körper, selbst wenn sich die Spielstruktur verändert und die frühere richtige Antwort keine richtige Antwort mehr ist, weiterhin zuerst nach den alten Mustern handeln will.
Letztlich liegt das Problem also nicht in einem Mangel an Fähigkeit, Neues zu lernen, sondern in der Fähigkeit, bestehende Optimierungen aufzugeben.
Denn die meisten Formen von Expertise sind zwar das Ergebnis von Anhäufung, zugleich aber auch das Ergebnis von Trägheit.
Deshalb denke ich, dass jemand, der einmal gut war, in der nächsten Meta nicht automatisch im Vorteil ist.
Im Gegenteil halte ich es für gut möglich, dass er umso stärker an den Erfolgen der vorherigen Ära gebunden ist.
Ich glaube, in der heutigen Coding-Branche ist es im Kern nicht anders.
Viele berechnen ihre Effizienz noch immer nach alten Methoden und beurteilen Produktivität nach alten Maßstäben.
Aber ich denke, die Meta hat sich bereits verändert.
Unabhängig von Ausbildung oder Berufserfahrung sollte man, wenn man betrachtet, was tatsächlich in der Welt geschieht, noch einmal darüber nachdenken, ob sich der Markt wirklich immer noch in genau derselben Struktur wie früher bewegt und ob Entwicklung weiterhin nur abhängigen Wert liefert.
Letztlich kommen in die nächste Phase nicht nur diejenigen, die fleißiger aufbauen, sondern diejenigen, die Bestehendes schneller ablegen können.
Meiner Ansicht nach wird in der neuen Ära die Fähigkeit, veraltete Optimierungen zu beseitigen, viel wichtiger als die Fähigkeit, noch mehr anzuhäufen.

 
brainer 2026-04-19

Wenn Sie das so sehen, dann können Sie es einfach direkt zeigen, indem Sie sogar 24 Stunden live senden.

 
vkehfdl1 2026-04-19

Oh
Vielen Dank für die gute Idee.
Wie erwartet macht Erfahrung eben den Unterschied 👍👍👍👍👍👍👍👍👍

 
brainer 2026-04-19

Ich habe mir die lange Erklärung, warum es nicht geht, gut angehört.

 
sea715 2026-04-15

Ich stimme zu, allerdings denke ich, dass gut gemachte Harness-Sets wie omo durchaus bei der Entwicklung helfen. (Soweit ich weiß, ist Ralph Loop nicht der Hauptfokus. Wird es nicht als Option angeboten? War es ulw..?)

 
cloverhearts 2026-04-15

Kurz gesagt, es scheint überhaupt nichts mit dem Token-Verbrauch zu tun zu haben.
Beim Thema Automatisierung gibt es unter Entwicklern eine tief verwurzelte Kultur, sodass es sich fast wie ein gemeinsames berufliches Ziel oder eine Form von Erfüllung anfühlt.

Ich denke, genau das erzeugt die Illusion, dass man über Nacht automatisch Code schreiben oder Produkte bauen könne.

Wenn man die Sache allerdings nicht aus der Perspektive eines Entwicklers betrachtet, sondern aus Sicht des tatsächlichen geschäftlichen Nutzens oder des operativen Betriebs, dann ist es in der Realität oft wichtiger, Probleme zu messen und Lösungen zu finden, als auf Performance, Ausarbeitung oder schnelle Reaktion zu setzen ...

Diese für Entwickler typische Illusion, dass man nur eine gute App oder einen guten Service bauen müsse, um den großen Durchbruch zu schaffen, scheint die Situation zu verzerren.

Um ein paar Haare im Haus aufzusammeln, braucht man nicht 500 Arten von Hochleistungsstaubsaugern, sondern einfach nur irgendetwas Einfaches, das meine Finger ersetzt.

Beim Token-Verbrauch reicht schon schlechtes Session-Management oder der falsche Einsatz von SDD, und selbst bei einfacher Server-Entwicklung frisst das in 2–3 Tagen mit Claude leicht 100 Dollar.
Weil die Spezifikation, was als falsche Nutzung gilt, unklar ist, ist es für einen selbst auch schwer zu beurteilen, was genau man falsch macht.

Unabhängig vom eigentlichen Inhalt scheint es jedenfalls genauso wenig sinnvoll zu sein, den Token-Verbrauch als Maßstab für den AI-Einsatz zu nehmen, wie zu behaupten, jemand sei leistungsfähig, nur weil er viel isst, oder zu sagen, man habe im Unternehmen viel gearbeitet, nur weil man die ganze Nacht bestehende Dokumente mit dem Bleistift abgeschrieben hat.

Im Moment setzt man mangels genauer Kennzahlen zwar auf Token-Verbrauch und Automatisierung,
aber als nächsten Schritt wird wohl bald die Diskussion darüber beginnen, wie man tatsächlich praktischen Wert schafft.

 
woung717 2026-04-15

Eigentlich scheint es in den USA auch nicht groß anders zu sein. Dass Coding-Harnesses vom Typ Oh-my dort, einschließlich in den USA, weniger vermarktet werden, liegt eher daran, dass das Projektteam in Korea sitzt; und wenn man sich ansieht, was der typische Token-Maximalist Steve Yegge oder Karpathy behaupten, unterscheidet sich das auch nicht groß von dem, was Sie gesagt haben. Ihre Anhänger ebenfalls nicht.

 
dohyun682 2026-04-15

Im Unternehmen erstellen sie sogar ein Leaderboard für die Token-Nutzung und lassen auch nach Firmen gegeneinander antreten, aber ich persönlich denke, dass sie damit nur auf das Marketing der AI-Unternehmen hereingefallen sind.
Wenn man sich ansieht, was in letzter Zeit viral geht, scheint die Performance im Verhältnis zum Token-Verbrauch überhaupt nicht berücksichtigt zu werden.

 
brainer 2026-04-15

Das Lustige ist: AI-Unternehmen machen solches Marketing gar nicht.
Im Gegenteil heißt es eher, dass sie mit weniger Reasoning-Tokens als bei früheren Modellen eine bessere Leistung erzielen.

 
vndk2234 2026-04-15

Vor 5 Jahren ...? Könnten Sie vielleicht eine Aktienempfehlung geben?

 
brainer 2026-04-15

Samsung Electronics.