Ich wollte es ausprobieren, aber es werden nur bis zu Gemini 2.5 unterstützt … Ist sogar die Liste der unterstützten Modelle mit Vibe Coding zusammengeschustert?
Interessant, aber ich frage mich auch, ob sie sich nicht einfach in die Richtung entwickelt haben, mehr ihrer eigenen Tokens zu verbrauchen und dadurch höhere Kosten zu verlangen. Und eigentlich habe ich auch den Eindruck, dass KI manche Bibliotheken bis zu einem gewissen Grad einfach erstellt, weil sie darauf trainiert wurde.
Wenn ich daran denke, dass sich wegen der Präferenzen von Agenten nur bestimmte Bibliotheken weiterentwickeln könnten, fühlt sich das irgendwie seltsam an.
Letztlich hat sich das US-Verteidigungsministerium also gegen Anthropic und für OpenAI entschieden, auch wenn es dabei den üblichen Unterschied im Wording gibt.
OpenAI hat gemeinsam konkrete Umsetzungsmechanismen vorgeschlagen, etwa den Aufbau technischer Sicherheitsvorkehrungen, den Einsatz von FDEs (Field Engineers) und eine dedizierte Cloud-Bereitstellung.
Anthropic verlangte dagegen Ausnahmeklauseln auf Ebene der Nutzungsbedingungen.
Aus Sicht des US-Verteidigungsministeriums wirkte das offenbar so, als würde „ein privates Unternehmen bei einzelnen Anwendungsfällen ein Vetorecht ausüben“, und die Erklärung klang fast wie eine demonstrative Zurückweisung.
Diese Vereinbarung wurde kurz nachdem Anthropic als Lieferkettenrisiko eingestuft worden war veröffentlicht.
Wenn man den Axios-Artikel liest, hat das Verteidigungsministerium den Konflikt mit Anthropic offenbar genutzt, um in Verhandlungen mit anderen KI-Unternehmen den Ton zu setzen.
OpenAI hat unter diesem Druck dann gewissermaßen eine Einigung in einer Form herbeigeführt, die das Verteidigungsministerium akzeptieren konnte.
Auch der Unterschied in den offiziellen Formulierungen ist groß.
Sam Altman sagte, „das Verteidigungsministerium habe der Sicherheit großen Respekt entgegengebracht“,
während die Seite von Anthropic bis zuletzt den Ton beibehielt, „den Forderungen des Verteidigungsministeriums aus Gewissensgründen nicht zustimmen zu können“.
Es wirkt, als sei selbst bei denselben Grundsätzen entscheidend gewesen, ob man dem Verteidigungsministerium sein Gesicht wahrt oder nicht.
Letztlich hat OpenAI zugestimmt, wodurch das Gesamtbild etwas schief wurde,
und deshalb scheint Sam Altman am Ende noch den Satz eingefügt zu haben, man solle „diese Bedingungen allen KI-Unternehmen gleichermaßen anbieten“,
als indirekte Botschaft, die Maßnahmen gegen Anthropic abzumildern.
Ich betreibe als Solo-Entwickler sieben Projekte, und dieser Artikel trifft einen wunden Punkt.
Dank AI-Coding-Tools ist die Geschwindigkeit in der frühen Entwicklung zwar wahnsinnig gestiegen, aber Code, der ohne Tests schnell aufgetürmt wurde, wird am Ende zur Refactoring-Hölle. Vor allem wenn man mehrere Services gleichzeitig betreibt, hat man bei Projekten ohne Tests jedes Mal Angst, dass an anderer Stelle etwas kaputtgeht, sobald man auch nur eine einzige Funktion anfasst.
Die Metapher „Tests = Burggraben“ trifft es genau. Konkurrenten können den Code zwar kopieren, aber eine Test-Suite zu duplizieren, die Tausende von Edge Cases abdeckt, ist deutlich schwieriger. Gerade weil AI zwar gut Code erzeugen kann, für das Erstellen sinnvoller Testszenarien aber noch immer Domänenwissen von Menschen nötig ist, gilt das umso mehr.
Ich habe eine Frage an die Entwickler hier: Warum werden in letzter Zeit die meisten Projekte eher in Rust als in Golang entwickelt? Ist der größte Grund das Vorhandensein bzw. Fehlen von GC?
Interessante Studie. Besonders eindrucksvoll ist, dass in der Kategorie „Build vs Buy“ 12 von 20 Kategorien auf DIY entfallen.
Wir haben bei der Erstellung des Standards für AI-Agenten-Personas (Soul Spec) eine ähnliche Beobachtung gemacht: Wenn man Claude Code die Tools nicht über CLAUDE.md oder AGENTS.md vorgibt, neigt es stark dazu, die Implementierung auf seine eigene Weise umzusetzen.
Was der „Recency Gradient“ dieser Studie nahelegt, ist wohl, dass ein neues Tool entweder im Trainingsdatensatz ausreichend präsent sein oder in den Projekt-Kontextdateien explizit angegeben werden muss, damit es in Claudes Standard-Stack aufgenommen wird. Letztlich bestimmt also Context Engineering sogar die Tool-Auswahl.
Bei Tools für Entwickler ist es inzwischen wichtig geworden, zu einem Produkt zu werden, das Agenten bevorzugen.
Wenn der Agent gar nicht erst darüber spricht, entfernt man sich nach und nach immer weiter davon.
Ralph loop wurde auch erst vor Kurzem hinzugefügt, und wenn man sieht, dass auch die Financial skill dazugekommen ist, wirkt es so, als kämen die Funktionen aus Drittanbieter-Tools ziemlich schnell direkt hinein, wenn man einfach nur abwartet.
Das ist nur meine persönliche Meinung, aber ich vermute, dass das vor allem Bereiche betrifft, in denen häufig Notebooks verwendet werden oder in denen Antworten probabilistisch ausfallen, wie im AI-Bereich oder bei Game-Clients.
Ich wollte es ausprobieren, aber es werden nur bis zu Gemini 2.5 unterstützt … Ist sogar die Liste der unterstützten Modelle mit Vibe Coding zusammengeschustert?
Interessant, aber ich frage mich auch, ob sie sich nicht einfach in die Richtung entwickelt haben, mehr ihrer eigenen Tokens zu verbrauchen und dadurch höhere Kosten zu verlangen. Und eigentlich habe ich auch den Eindruck, dass KI manche Bibliotheken bis zu einem gewissen Grad einfach erstellt, weil sie darauf trainiert wurde.
Wenn ich daran denke, dass sich wegen der Präferenzen von Agenten nur bestimmte Bibliotheken weiterentwickeln könnten, fühlt sich das irgendwie seltsam an.
Letztlich hat sich das US-Verteidigungsministerium also gegen Anthropic und für OpenAI entschieden, auch wenn es dabei den üblichen Unterschied im Wording gibt.
OpenAI hat gemeinsam konkrete Umsetzungsmechanismen vorgeschlagen, etwa den Aufbau technischer Sicherheitsvorkehrungen, den Einsatz von FDEs (Field Engineers) und eine dedizierte Cloud-Bereitstellung.
Anthropic verlangte dagegen Ausnahmeklauseln auf Ebene der Nutzungsbedingungen.
Aus Sicht des US-Verteidigungsministeriums wirkte das offenbar so, als würde „ein privates Unternehmen bei einzelnen Anwendungsfällen ein Vetorecht ausüben“, und die Erklärung klang fast wie eine demonstrative Zurückweisung.
Diese Vereinbarung wurde kurz nachdem Anthropic als Lieferkettenrisiko eingestuft worden war veröffentlicht.
Wenn man den Axios-Artikel liest, hat das Verteidigungsministerium den Konflikt mit Anthropic offenbar genutzt, um in Verhandlungen mit anderen KI-Unternehmen den Ton zu setzen.
OpenAI hat unter diesem Druck dann gewissermaßen eine Einigung in einer Form herbeigeführt, die das Verteidigungsministerium akzeptieren konnte.
Auch der Unterschied in den offiziellen Formulierungen ist groß.
Sam Altman sagte, „das Verteidigungsministerium habe der Sicherheit großen Respekt entgegengebracht“,
während die Seite von Anthropic bis zuletzt den Ton beibehielt, „den Forderungen des Verteidigungsministeriums aus Gewissensgründen nicht zustimmen zu können“.
Es wirkt, als sei selbst bei denselben Grundsätzen entscheidend gewesen, ob man dem Verteidigungsministerium sein Gesicht wahrt oder nicht.
Letztlich hat OpenAI zugestimmt, wodurch das Gesamtbild etwas schief wurde,
und deshalb scheint Sam Altman am Ende noch den Satz eingefügt zu haben, man solle „diese Bedingungen allen KI-Unternehmen gleichermaßen anbieten“,
als indirekte Botschaft, die Maßnahmen gegen Anthropic abzumildern.
Könnte man es nicht einfach minimalistisch halten...?
Oder jetzt, wo WordPad verschwunden ist, etwas Neues herausbringen, das noch schlanker ist...
Ich betreibe als Solo-Entwickler sieben Projekte, und dieser Artikel trifft einen wunden Punkt.
Dank AI-Coding-Tools ist die Geschwindigkeit in der frühen Entwicklung zwar wahnsinnig gestiegen, aber Code, der ohne Tests schnell aufgetürmt wurde, wird am Ende zur Refactoring-Hölle. Vor allem wenn man mehrere Services gleichzeitig betreibt, hat man bei Projekten ohne Tests jedes Mal Angst, dass an anderer Stelle etwas kaputtgeht, sobald man auch nur eine einzige Funktion anfasst.
Die Metapher „Tests = Burggraben“ trifft es genau. Konkurrenten können den Code zwar kopieren, aber eine Test-Suite zu duplizieren, die Tausende von Edge Cases abdeckt, ist deutlich schwieriger. Gerade weil AI zwar gut Code erzeugen kann, für das Erstellen sinnvoller Testszenarien aber noch immer Domänenwissen von Menschen nötig ist, gilt das umso mehr.
Ich habe eine Frage an die Entwickler hier: Warum werden in letzter Zeit die meisten Projekte eher in Rust als in Golang entwickelt? Ist der größte Grund das Vorhandensein bzw. Fehlen von GC?
Das fand ich ziemlich gut.
Interessante Studie. Besonders eindrucksvoll ist, dass in der Kategorie „Build vs Buy“ 12 von 20 Kategorien auf DIY entfallen.
Wir haben bei der Erstellung des Standards für AI-Agenten-Personas (Soul Spec) eine ähnliche Beobachtung gemacht: Wenn man Claude Code die Tools nicht über
CLAUDE.mdoderAGENTS.mdvorgibt, neigt es stark dazu, die Implementierung auf seine eigene Weise umzusetzen.Was der „Recency Gradient“ dieser Studie nahelegt, ist wohl, dass ein neues Tool entweder im Trainingsdatensatz ausreichend präsent sein oder in den Projekt-Kontextdateien explizit angegeben werden muss, damit es in Claudes Standard-Stack aufgenommen wird. Letztlich bestimmt also Context Engineering sogar die Tool-Auswahl.
Gut ist auch, dass der Originaldatensatz offengelegt wurde: https://github.com/amplifying-ai/claude-code-picks
Vereinigte Staaten „China“
Das nennt man wohl Assistive agent optimization (AAO).
Bei Tools für Entwickler ist es inzwischen wichtig geworden, zu einem Produkt zu werden, das Agenten bevorzugen.
Wenn der Agent gar nicht erst darüber spricht, entfernt man sich nach und nach immer weiter davon.
Ralph loop wurde auch erst vor Kurzem hinzugefügt, und wenn man sieht, dass auch die Financial skill dazugekommen ist, wirkt es so, als kämen die Funktionen aus Drittanbieter-Tools ziemlich schnell direkt hinein, wenn man einfach nur abwartet.
Astro*
Man könnte es auch mit Individualität übersetzen.
Es sieht so aus, als wäre das Feld für die Inhaltskennung leer ;_;
👍👍👍
In der Praxis muss man es wohl selbst ausprobieren, aber die Website ist beeindruckend.
lol
Wo kann man das sehen?
Das ist nur meine persönliche Meinung, aber ich vermute, dass das vor allem Bereiche betrifft, in denen häufig Notebooks verwendet werden oder in denen Antworten probabilistisch ausfallen, wie im AI-Bereich oder bei Game-Clients.
Wer wird wohl etwas beitragen?