Ich habe auch alles Mögliche reingeworfen, ähnlich wie bei Osmanis Aussagen,
und als ich gerade eine App gebaut habe, kam dieses Thema auf, deshalb habe ich es etwas überstürzt geschrieben.
Aber statt nur darüber zu reden, wäre es nicht besser gewesen, wenn Osmani das, was er gesagt hat, auch selbst bei Google Antigravity eingebaut hätte?
Bei Kapasi ist es genauso – inzwischen hat man offenbar gar nicht mehr vor, einfach etwas zu bauen, sondern wirft nur noch mal eben einen Text hin; na ja, was soll man dazu sagen!
Nicht das Modell, sondern das System (Harness) entscheidet über Erfolg oder Misserfolg: Die Leistung von KI wird weniger vom Modell selbst wie GPT oder Claude bestimmt als von der Gestaltung der Arbeitsumgebung darum herum, also Prompts, Tools, Sandbox, Feedback-Loops und weiteren Elementen, die als „Harness“ bezeichnet werden.
Das „Ratchet“-Prinzip, das Fehler in Regeln überführt: Fehler der KI sollten nicht als bloße Ausrutscher abgetan, sondern umgehend in Regeldokumente (wie AGENTS.md) oder Hooks übernommen werden, damit das System mit der Zeit robuster wird.
Nicht die Schuld des Modells, sondern ein Problem der Konfiguration (Skill): Wenn KI ihre Arbeit nicht gut erledigt, liegt das oft weniger an mangelnder Intelligenz des Modells als an einem schlecht konstruierten Harness; ein technischer Ansatz, der vom gewünschten Ergebnis rückwärts die nötigen Bausteine und Randbedingungen entwirft, ist essenziell.
Früher habe ich klar in den Prompt geschrieben „Mach A“, aber trotzdem wurde das mit einer gewissen Wahrscheinlichkeit immer wieder nicht eingehalten. Also habe ich alles Mögliche ausprobiert: in mrkdwn fett hervorheben, es zweimal schreiben, auf Englisch schreiben, mit einer ringförmigen Struktur formulieren, in XML schreiben — doch mit einer gewissen Wahrscheinlichkeit wurde der Prompt immer wieder ignoriert...
Aber wenn man im Prompt sagt „Mach A, mach B nicht“ und das Modell das wirklich gut versteht, dann scheint so ein Ansatz sinnvoll zu sein. Aber ist so ein Ansatz auch dann sinnvoll, wenn die Anweisungen im Prompt je nach Zustand des AI-Servers nur probabilistisch befolgt werden?
Man denkt wohl, dass es niemand merkt, wenn die Leistung per stillschweigendem Patch gesenkt wird, aber das menschliche Gespür ist in Wirklichkeit schärfer, als man denkt. Wenn ich mein Gefühl mit dem kombiniere, was die Leute in der Community sagen, hat man die Antwort sofort.
"Und was kannst du damit schon machen, haha" — deshalb bleibt einem nichts anderes übrig, als es trotzdem zu benutzen....
Beim reinen Codex-Modell 5.3 hatte es wirklich das Gefühl, als würde man mit einem untergeordneten Mitarbeiter sprechen, der zwar keine Einleitung hinbekommt, aber nur gut coden kann.
Ab 5.4 fing es an, ein bisschen zu reden, und seit 5.5 wirkt es, als wäre es zur Hälfte wieder bei Verstand.
Noch immer nennt es eine API manchmal einen Vertrag, und gelegentlich wirft es Englisch und Koreanisch völlig wild durcheinander, sodass man schreiben muss: „Erklär es bitte leicht verständlich und möglichst ohne Englisch.“
Trotzdem habe ich den Eindruck, dass die Code-Generierung leistungsmäßig ab 5.4 Opus überholt hat. Opus 4.7 ist zwar erschienen, aber ich habe es nicht einmal kurz ausprobiert. Es wirkt ohnehin so, als wäre das wieder Marketing à la „Anthropic“.
Aber Harnes wurde bis letzte Woche noch massiv vermarktet, und seit dieser Woche ist es auffallend ruhig … Vielleicht liegt es an den Fehltritten von Anthropic und daran, dass Codex 5.5 so stark ist ………
Ich nutze es seit Jahren, aber seit dem Wechsel hin zu einem agentenbasierten Ansatz verliert es zunehmend an Stärke, haha.
Trotzdem hilft es überraschend oft, weil ich persönliche Dokumente schreibe oder vieles noch per Hand code.
Wenn es auf das 27-Fache steigt, ohne dass das Kontingent erhöht wird, ist agentisches Coding dann nicht auf einem Niveau, auf dem man es praktisch nicht nutzen kann?
VibeVoice – Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation
Bei GeekNews wurde es anfangs direkt veröffentlicht, aber wegen eines Problems wurde der VibeVoice-TTS-Code offenbar entfernt.
Für TTS scheint derzeit nur noch VibeVoice-Realtime verfügbar zu sein.
In den letzten Tagen sieht man VibeVoice-ASR offenbar wieder überall, weil es erneut an Popularität gewinnt.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison hat es getestet; auf dem Mac lässt es sich mit uv und mlx-audio per Einzeiler ausführen,
und eine Stunde Audio wurde auf einem MacBook Pro mit 128 GB M5 Max in etwa 8 Minuten 45 Sekunden verarbeitet.
Man kann es wohl als „Whisper mit guter Sprechertrennung“ sehen.
Das ist ein Text, der das Gerede eines erfahrenen Entwicklers analysiert, der inhaltsleere Aussagen plausibel klingen lässt (persönlich mag ich Google nicht, entschuldigen Sie bitte). Natürlich halte ich den Ansatz, das Phänomen über ein besseres Verständnis zu erfassen, für einen guten Versuch.
So etwas wie SDD hat seinen Hype längst hinter sich, jetzt scheint also Harness dran zu sein.
Der etwas erstaunliche Teil bei Harness ist, dass das Modell das Konzept „harness“ ziemlich schnell versteht, obwohl es in den Trainingsdaten eindeutig nicht vorkam.
Vielleicht liegt es daran, dass einfach die Bedeutung eines bereits existierenden Wortes übernommen wird; ich habe es nicht einmal erwähnt, und trotzdem kamen schon Aussagen wie, man solle zuerst das Harness aktualisieren.
Ich habe auch alles Mögliche reingeworfen, ähnlich wie bei Osmanis Aussagen,
und als ich gerade eine App gebaut habe, kam dieses Thema auf, deshalb habe ich es etwas überstürzt geschrieben.
Aber statt nur darüber zu reden, wäre es nicht besser gewesen, wenn Osmani das, was er gesagt hat, auch selbst bei Google Antigravity eingebaut hätte?
Bei Kapasi ist es genauso – inzwischen hat man offenbar gar nicht mehr vor, einfach etwas zu bauen, sondern wirft nur noch mal eben einen Text hin; na ja, was soll man dazu sagen!
https://github.com/hang-in/tunaFlow
https://docs.github.com/ko/copilot/…
Ja
3-Zeilen-Zusammenfassung
AGENTS.md) oder Hooks übernommen werden, damit das System mit der Zeit robuster wird.Werde ich als Referenz nutzen. Danke.
Roadmap https://tolaria.canny.io/
Früher habe ich klar in den Prompt geschrieben „Mach A“, aber trotzdem wurde das mit einer gewissen Wahrscheinlichkeit immer wieder nicht eingehalten. Also habe ich alles Mögliche ausprobiert: in
mrkdwnfett hervorheben, es zweimal schreiben, auf Englisch schreiben, mit einer ringförmigen Struktur formulieren, in XML schreiben — doch mit einer gewissen Wahrscheinlichkeit wurde der Prompt immer wieder ignoriert...Aber wenn man im Prompt sagt „Mach A, mach B nicht“ und das Modell das wirklich gut versteht, dann scheint so ein Ansatz sinnvoll zu sein. Aber ist so ein Ansatz auch dann sinnvoll, wenn die Anweisungen im Prompt je nach Zustand des AI-Servers nur probabilistisch befolgt werden?
27-mal? Krassssss
Man denkt wohl, dass es niemand merkt, wenn die Leistung per stillschweigendem Patch gesenkt wird, aber das menschliche Gespür ist in Wirklichkeit schärfer, als man denkt. Wenn ich mein Gefühl mit dem kombiniere, was die Leute in der Community sagen, hat man die Antwort sofort.
"Und was kannst du damit schon machen, haha" — deshalb bleibt einem nichts anderes übrig, als es trotzdem zu benutzen....
Beim reinen Codex-Modell 5.3 hatte es wirklich das Gefühl, als würde man mit einem untergeordneten Mitarbeiter sprechen, der zwar keine Einleitung hinbekommt, aber nur gut coden kann.
Ab 5.4 fing es an, ein bisschen zu reden, und seit 5.5 wirkt es, als wäre es zur Hälfte wieder bei Verstand.
Noch immer nennt es eine API manchmal einen Vertrag, und gelegentlich wirft es Englisch und Koreanisch völlig wild durcheinander, sodass man schreiben muss: „Erklär es bitte leicht verständlich und möglichst ohne Englisch.“
Trotzdem habe ich den Eindruck, dass die Code-Generierung leistungsmäßig ab 5.4 Opus überholt hat. Opus 4.7 ist zwar erschienen, aber ich habe es nicht einmal kurz ausprobiert. Es wirkt ohnehin so, als wäre das wieder Marketing à la „Anthropic“.
Wow, sehr schön. Danke fürs Teilen.
Tailscale ist göttlich..
Aber Harnes wurde bis letzte Woche noch massiv vermarktet, und seit dieser Woche ist es auffallend ruhig … Vielleicht liegt es an den Fehltritten von Anthropic und daran, dass Codex 5.5 so stark ist ………
„Huch? Kommt mir vor, als hätte ich das schon mal gesehen …“ – aber sie fügen direkt einen Link unter „Lesenswerte Artikel dazu“ ein, haha
Ich nutze es seit Jahren, aber seit dem Wechsel hin zu einem agentenbasierten Ansatz verliert es zunehmend an Stärke, haha.
Trotzdem hilft es überraschend oft, weil ich persönliche Dokumente schreibe oder vieles noch per Hand code.
Wenn es auf das 27-Fache steigt, ohne dass das Kontingent erhöht wird, ist agentisches Coding dann nicht auf einem Niveau, auf dem man es praktisch nicht nutzen kann?
VibeVoice – Microsofts Open-Source-Sprachsynthesemodell der nächsten Generation
Bei GeekNews wurde es anfangs direkt veröffentlicht, aber wegen eines Problems wurde der VibeVoice-TTS-Code offenbar entfernt.
Für TTS scheint derzeit nur noch VibeVoice-Realtime verfügbar zu sein.
In den letzten Tagen sieht man VibeVoice-ASR offenbar wieder überall, weil es erneut an Popularität gewinnt.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison hat es getestet; auf dem Mac lässt es sich mit
uvund mlx-audio per Einzeiler ausführen,und eine Stunde Audio wurde auf einem MacBook Pro mit 128 GB M5 Max in etwa 8 Minuten 45 Sekunden verarbeitet.
Man kann es wohl als „Whisper mit guter Sprechertrennung“ sehen.
Das ist ein Text, der das Gerede eines erfahrenen Entwicklers analysiert, der inhaltsleere Aussagen plausibel klingen lässt (persönlich mag ich Google nicht, entschuldigen Sie bitte). Natürlich halte ich den Ansatz, das Phänomen über ein besseres Verständnis zu erfassen, für einen guten Versuch.
So etwas wie SDD hat seinen Hype längst hinter sich, jetzt scheint also Harness dran zu sein.
Der etwas erstaunliche Teil bei Harness ist, dass das Modell das Konzept „harness“ ziemlich schnell versteht, obwohl es in den Trainingsdaten eindeutig nicht vorkam.
Vielleicht liegt es daran, dass einfach die Bedeutung eines bereits existierenden Wortes übernommen wird; ich habe es nicht einmal erwähnt, und trotzdem kamen schon Aussagen wie, man solle zuerst das Harness aktualisieren.
Es fühlt sich an, als würden immer mehr bloße Marketingbegriffe entstehen.
Was ist mit Studierenden?