1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Das erste öffentlich verfügbare Mythos-Klasse-Modell Claude 5 Fable nimmt mehrstufige Spezifikationen entgegen und arbeitet bis zu über zehn Stunden lang selbstständig daran, wobei es alle zuvor verwendeten Modelle mit deutlichem Abstand übertrifft
  • Mit nur einem einzigen Prompt und einer Runde Feedback erstellt es sowohl ausgefeilte sozialwissenschaftliche Fachaufsätze als auch ein 10-seitiges Reimgedicht, in dem jedes Wort mit s beginnt
  • Während der Arbeit führt es andere AIs direkt aus (meist das günstige Claude Sonnet), um Recherche, Coding und Validierung aufzuteilen, und sammelt dabei über 2.200 Flug- und Bahnfahrpläne sowie länderspezifische Straßengeschwindigkeitsdaten
  • Die Rolle des Nutzers reduziert sich auf Anweisungen und die Bewertung der Ergebnisse, während der Entscheidungsprozess des Modells verborgen bleibt und es als ultimative Blackbox funktioniert
  • Die Beziehung zu KI verschiebt sich vom direkt arbeitenden „Zauberer“ hin zum „Patron“, der Ergebnisse beauftragt und bewertet; je leistungsfähiger das Modell wird, desto weniger Raum bleibt womöglich für menschliches Eingreifen

Leistung und Nutzungserlebnis von Claude 5 Fable - Ethan Mollick

  • Es gab die Gelegenheit, Claude 5 Fable vorab im Early Access zu testen, das erste Mythos-Klasse-KI-Modell, das der Öffentlichkeit zugänglich gemacht wird
  • Claude 5 Fable ist das erste veröffentlichte Mythos-Klasse-KI-Modell; obwohl viel über Auswirkungen auf die Software-Sicherheit diskutiert wurde, wurden diese Tests außerhalb dieses Bereichs durchgeführt
  • Die Guardrails von Fable greifen auf einem Niveau, das den Einsatz für Cybersecurity-Zwecke nahezu unmöglich macht
  • In mehreren Experimenten zeigte Fable deutlich höhere Leistung als fast alle öffentlichen Modelle, die zuvor verwendet wurden
  • Fable bewies seine Fähigkeiten bei verschiedenen Problemen und führte auf Basis mehrseitiger Spezifikationen Aufgaben von bis zu etwa 12 Stunden Dauer aus

Leistung und Ergebnisse von Fable

  • In allen durchgeführten Experimenten übertraf es andere veröffentlichte Modelle mit deutlichem Abstand; über sämtliche Aufgaben hinweg zeigte sich eine allgemeine Leistungssteigerung
  • Mit einem einzigen Prompt und einem einmaligen Feedback entstand der bislang ausgefeilteste wissenschaftliche sozialwissenschaftliche Aufsatz, den eine KI erstellt hat
  • In Claude Code wurden aus einem vagen Startprompt und etwas zusätzlichem Feedback wie „make it better“ spielbare Games erstellt
    • Das Münzwurf-Spiel begann mit dem Prompt „Balatro, but for the game of coin flips“
    • Das selbstbewusste Snake-Spiel hat eine Struktur, in der die Schlange ein Selbstbewusstsein entwickelt und seltsame Dinge geschehen
    • Das Spiel des Hinabsteigens in die Tiefe dreht sich darum, immer weiter nach unten zu gehen und herauszufinden, was dort ist
    • Da Claude keine Bilder erzeugen kann, wurden sämtliche Artworks und 3D-Objekte ausschließlich mit mathematischen Operationen und ohne externe Assets umgesetzt
  • Je ernster die Aufgaben wurden, desto stärker lag die Erfahrung mit dem Tool zwischen Freude und Unbehagen — weil auf Anfragen tatsächlich genau das geschieht, was man verlangt

Maps and Methods — Beispiel zur Erstellung einer Isochronenkarte

  • Eine Isochronenkarte (isochrone map) ist eine Karte, die zeigt, welche Entfernungen innerhalb einer vorgegebenen Zeit erreichbar sind; das erste Beispiel wurde 1881 erstellt, um Reisezeiten ab London darzustellen
  • Frühere Modelle konnten solche Karten nicht einmal halbwegs nützlich erstellen, weil dafür Tausende potenzieller Reisezeit-Recherchen und viele kleine Entscheidungen nötig sind
  • Vorgehensweise bei der Arbeit

    • Es wurde ein Prompt eingegeben, der eine individuell gestaltete Karte auf Basis realer Daten verlangte, einschließlich Stadtwahl sowie Flughafen-, Zug-, Geh- und Autofaktoren; die Daten mussten nicht in Echtzeit sein, sollten aber auf realer Recherche basieren
    • Das Modell schlug zunächst vor, die Karte im Stil des Originals von 1881 zu erstellen; nach Zustimmung begann die Arbeit
    • In einer mehrstündigen Build-Session wurden zahlreiche andere AIs ausgeführt (meist das günstige Claude Sonnet), um Reisezeiten zu recherchieren
      • Dabei wurden Bahnfahrpläne von TGV bis Shinkansen, länderspezifische Straßengeschwindigkeiten auf Basis mehrerer Fachaufsätze und über 2.200 konkrete Flugdatenpunkte beschafft
    • Während die Recherche-Agenten liefen, begann das Modell mit dem Coding, setzte zusätzliche Agenten zur Code-Validierung und Tests ein und protokollierte den Fortschritt
  • Korrektur entlegener Orte und Token-Nutzung

    • Für entlegene Orte wie Grönland, die zunächst nur Schätzwerte statt genauer Daten enthielten, wurde angewiesen, reale Reisezeiten zu ermitteln
    • Diesmal lief ein Workflow mit adversarial groups, in dem recherchiert und die jeweiligen Ergebnisse gegenseitig überprüft wurden
    • So wurden etwa die Fahrtenfrequenz von Schiffen zur Pitcairninsel im Pazifik und die Route von Ottawa nach Grise Fjord ermittelt
    • Dabei wurden in kurzer Zeit enorme Mengen an Token verbraucht
  • Der Nutzer selbst gab nur ambitionierte Anweisungen und ein wenig Feedback; das Modell traf Hunderte kleiner Entscheidungen eigenständig, ohne dass es eine Möglichkeit gab, diese Auswahl zu verstehen oder einzugreifen
    • Nicht nur der Arbeitsaufwand, sondern auch die Kontrolle über Vorgehensweise, gewählten Ansatz und Tiefe des Ergebnisses war begrenzt
  • Das Ergebnis ist als anklickbare Isochronenkarte verfügbar; Methode und Quellen finden sich am unteren Rand der Grafik

Arbeiten mit einem Mythos-Klasse-Modell — das Beispiel Concord

  • Das ambitionierteste Projekt war eine Forschungsaufgabe zur sinnvollen Klassifizierung der unordentlichen Antworten, die Menschen erzeugen — etwa wie innovativ eine Idee ist oder warum Menschen ein bestimmtes Buch mögen
    • Bisher trafen menschliche Forschende diese Urteile und verglichen sie statistisch mit anderen Antworten, um die Zuverlässigkeit der Daten zu prüfen
    • Die Kalibrierung zwischen KI- und menschlichen Urteilen ist schwierig und teuer
  • Fable wurde gebeten, dieses Problem zu lösen; zunächst erzeugte es ein 19-seitiges komplexes Designdokument und führte es dann aus
    • Fable arbeitete daran 9 Stunden und 30 Minuten
  • Das Ergebnis war eine Software, die die KI Concord nannte; sie nimmt mehrere Datensätze auf, kalibriert menschliche und KI-Antworten und führt komplexe Datenanalysen durch
    • Sie war nicht perfekt; aus Expertensicht wurden einige Fehler und Auslassungen gefunden (teilweise durch das angeforderte Design verursacht), woraufhin Korrekturen angewiesen wurden
    • Der gelieferte Umfang ging über alles hinaus, was zuvor gesehen wurde: Software, die Forschende seit Jahren brauchten, die aber mangels Rentabilität nie entwickelt worden war
    • Verbleibende potenzielle Bugs können Software Engineers beheben; um auf die explosionsartig wachsende Nutzung neuer Software zu reagieren, könnten sogar mehr Coder benötigt werden
    • Der Concord-Code kann im GitHub-Repository verwendet oder angepasst werden

Grenzen und Einschränkungen

  • Die Stärke von Fable geht mit Fremdheit und Einschränkungen einher
  • Token-Kosten

    • Fable ist im Vergleich zu Opus doppelt so teuer und verbraucht in der Produktion schnell Token in „ziemlich großer“ Menge
    • Allerdings könnte eine clevere Delegation an günstigere Modelle die tatsächlichen Kosten deutlich senken
  • Guardrails und Stil

    • Schon beim kleinsten Anzeichen eines Sicherheitsproblems greifen die Guardrails, und es wird auf das leistungsschwächere Claude 4.8 Opus umgeschaltet; das geschieht übermäßig oft
    • Die Diskussion um Mythos konzentrierte sich vor allem auf Auswirkungen auf die Software-Sicherheit, doch Fables Guardrails blockieren den Einsatz für Cybersecurity-Zwecke faktisch
    • Es gibt weiterhin eine jagged frontier, und in Ausgaben wie Fortschrittsberichten bleibt ein eigener „Claudism“-Stil erhalten

Vom Zauberer zum Patron — der Wandel der menschlichen Rolle

  • Im vergangenen Jahr wurde diese Erfahrung als Zauberer (wizard) beschrieben, der einen Spruch aufsagt und etwas geschieht
  • Bei Fable ist der Spruch so mächtig geworden, dass der Nutzer selbst weniger einem Zauberer als vielmehr einem Patron ähnelt
    • Man beschreibt, was man will, bezahlt die Kosten und beurteilt das Ergebnis — die eigentliche Arbeit geschieht unsichtbar durch Hunderte kleiner Entscheidungen
    • Die Arbeit verschiebt sich vom Prozess zum Ergebnis; man steuert nicht mehr, sondern beauftragt
  • Zwei Möglichkeiten

    • Es könnte sich um ein vorübergehendes Phänomen handeln, weil die Interfaces noch nicht aufgeholt haben, und es könnten bessere Wege entstehen, Modellverhalten einzusehen und unterwegs einzugreifen
    • Umgekehrt könnte es aber sein, dass mit steigender Kompetenz des Modells immer weniger sinnvolle menschliche Eingriffe möglich sind und die Blackbox der Preis dieser Fähigkeit ist
  • Es handelt sich nicht um einen offensichtlichen Verlust von Kontrolle; steuerbar bleibt es weiterhin und folgt Anweisungen sehr gutje ambitionierter die Anweisung, desto besser das Ergebnis
    • Doch Steuerung ist nicht mehr dasselbe wie direkte Ausführung: Das Modell startet eigene Agenten, lässt recherchieren, schreiben und gegenseitig prüfen und liefert am Ende ein fertiges Ergebnis zurück
    • Der Patron beauftragt nicht nur einen einzelnen Künstler; Fable ähnelt vielmehr einem ganzen Studio, dessen Endergebnis man nur noch abnimmt, ohne jemals den Arbeitsplatz selbst betreten zu haben

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Interessant an diesem Beitrag ist, dass es kaum Substanzielles über die Qualität des erzeugten Codes oder das Medium selbst gibt
    Ich würde gern wissen, ob der Code Dokumentation und Tests hat, ob er verständlich und erweiterbar ist, ob er sicher ist und welche Sprache, welches Framework und welche Datenbank verwendet wurden. Der Autor spricht von Urteilsvermögen und Geschmack, aber ich weiß nicht, ob der tatsächliche Code ebenfalls mit Geschmack geschrieben wurde. Wenn man um ein neues Feature bittet, frage ich mich auch, ob das Modell dann die gesamte Struktur wieder umwirft und erneut Tokens im Gegenwert von 9,5 Stunden verbraucht. Der Forschungsteil dürfte aus Domänenwissen bestehen, also daraus, wie Zeit je nach Reisetyp umgerechnet und anschaulich dargestellt wurde; mich interessiert auch, wie der Autor das validiert hat
    Diese Fragen gelten nicht nur für AI. Wenn ich einer menschlichen Agentur Geld gegeben und ein Ergebnis bekommen hätte, das „funktioniert“, würde ich genau dasselbe fragen. Wenn ich es nicht selbst beurteilen könnte, hätte ich jemanden eingestellt, der es beurteilen kann. Der größte Knackpunkt bei LLMs ist Validierung

    • Solche Texte werden fast nie von Softwareingenieuren geschrieben, sondern meistens von Technik-Führungskräften, pensionierten Ingenieuren oder VCs
      Dieser Autor scheint Professor an der Wharton School of Management zu sein. Solche Leute müssen reale Produkte nicht wirklich launchen oder warten; das ist eher so, als würde man einfach ein Side-Project bauen
      Eine wirklich fundierte Software-Engineering-Perspektive habe ich fast nur bei Mitchell Hashimoto gesehen
    • Ich beginne zu erkennen, dass LLMs wirklich stark darin sind, risikoarme Projekte zu bauen
      Die obigen Fragen setzen meist ein höheres Risiko voraus: dass Software lange gewartet wird, sich Anforderungen weiterentwickeln und Fehler nicht tolerierbar sind
      Der Trick, LLMs gut für Software einzusetzen, scheint darin zu bestehen zu lernen, wie man alle Projekte risikoarm macht
    • So liefen praktisch alle LLM-Diskussionen der letzten zwei Jahre
      Sobald man Substanz verlangt, kommt ein Schwall von „Menschen können das doch auch nicht gut!“. Quantitative Belege gibt es nur sehr wenige, dafür jede Menge reine Rhetorik
    • Je besser die Modelle werden, desto eher denke ich, dass es vielleicht wirklich nicht wichtig ist, wie der Code aussieht
      Wenn das beobachtbare Verhalten einer Software gut ist, dann ist die Software gut. Wenn das Modell jede Art von Bug in einer per Vibecoding entstandenen Codebasis beheben kann, dann ist es ein behebbarer Bug. Wenn es keine ausnutzbaren Schwachstellen gibt, ist der Code sicher, und wenn die Performance ausreicht, ist es performanter Code
      Wenn die Software nach außen hin tut, was sie soll, und das Modell interne Probleme beheben kann, sobald sie gefunden werden, dann ist die Form des Codes nicht wichtig. Software Engineering ist mehr denn je die Aufgabe geworden, sicherzustellen, dass Code wie beabsichtigt funktioniert
      Und selbst wenn die Form des Codes wichtig sein sollte, kann man auch das vom Modell korrigieren lassen
    • Ich habe auf eines der Beispiele geklickt, das „Snake-Spiel, in dem die Schlange Selbstbewusstsein entwickelt und seltsame Dinge passieren“ hieß, und nach ein bis zwei Minuten Spielen war es einfach nur ein Snake-Spiel im Stil der 1980er
      Vielleicht habe ich etwas übersehen. Bezieht sich das „Selbstbewusstsein“ auf ein paar lustige Nachrichten am unteren Bildschirmrand? Und was genau sind die „seltsamen Dinge“?
  • Ich habe in Fable Modelle eingespeist, die ich zuvor von Hand validiert hatte
    Im Wesentlichen lasse ich Opus ein Szenario modellieren, mir die Mathematik dazu zeigen, korrigiere und iteriere und prüfe am Ende noch einmal, ob der Code zur Modelllogik passt. Fable hat fast alle Fehler gefunden, die ich entdeckt hatte, und zusätzlich interessante Vorschläge für weitere Variablen gemacht
    Allerdings hat es mein Nutzungslimit verbrannt wie ein Hummer aus den späten 90ern

    • Ich habe ein Max-5x-Abo, und Fable hat in einer 40-minütigen Code-Review-Session 16 % meines Wochenlimits verbraucht
      Es hat das Review nicht einmal abgeschlossen, und beim wichtigen Teil zur Memory Safety, für den ich Fable eigentlich gebraucht hatte, bin ich am Ende wieder zu Opus 4.8 zurückgegangen
      Ich habe das Gefühl, dass ich solche Modelle bald aus Preisgründen nicht mehr nutzen kann. Ich sollte Fable wohl bis zum 22. Juni maximal ausreizen
    • Die wichtigste Frage ist: Wie hoch ist hier der Return on Investment?
  • Ich habe heute ein persönliches Projekt mit Fable ausprobiert; es wirkt ziemlich solide, ist aber nicht meilenweit von 4.8 entfernt
    Dieselben Halluzinationen, dieselben Arten von Bugs, dieselbe Tendenz bei großen Projekten, nur das Angeforderte zu tun und zu ignorieren, was dadurch berührt, kaputtgemacht oder beeinflusst werden könnte. Anfangs führt es Tests aus, aber wenn der Kontext größer wird, heißt es dann „mache ich später“, und wenn man nicht mit Schimpfwörtern nachdrücklich wird, macht es sie am Ende gar nicht
    Ich werde es weiter benutzen, aber im Moment wirkt es eher wie eine inkrementelle Verbesserung und nicht wie „OMG OMG OMG Mythos ist da!“

    • Meine Erfahrung ist das Gegenteil. Fable schien alles vorauszuahnen und einfach alles zu erledigen, ohne dass ich danach fragen musste
      Sehr beeindruckend und angenehm, damit zusammenzuarbeiten
      Das ist kein ungewöhnliches Phänomen, denn als ich Opus anfangs abonniert hatte, war es genau so. Es gibt das weit verbreitete Meme, Anthropic habe Opus wegen Kapazitätsmangel abgeschwächt; ob das stimmt, weiß ich nicht. Aber ich frage mich, ob Fable dasselbe Schicksal ereilen wird
    • In meinem Projekt hat Fable Dinge sofort klar erkannt, die 4.8 übersehen hatte
      Aber kurz nachdem es mich begeistert hatte, weil es diese Probleme so elegant Stufe für Stufe überwunden hatte, fiel es bald darauf wieder in die übliche Endlosschleife zurück, in der es lieber weiterredet, statt etwas zu tun, und manchmal einfach stehenbleibt, bis ich es erneut anstoßen muss
      Also kein AGI. Aber definitiv eine klare Verbesserung
  • Dieser kurze Satz im Artikel ist beängstigend: „Aber ein Softwareingenieur wird die verbleibenden potenziellen Bugs auspolieren, die ich nicht schnell finden konnte“
    Jeder Softwareentwickler weiß, dass das eine sehr gefährliche und unrealistische Annahme ist

    • Das ist im Grunde ein kleiner Satz, der die gesamte echte Arbeit beiläufig weiterreicht
  • Ich habe die ersten paar Absätze des Textes gelesen, den der Autor als „die ausgefeilteste von AI erstellte akademische sozialwissenschaftliche Arbeit“ bezeichnet, und war nicht so beeindruckt wie erwartet
    Es klang ungefähr so: „Ex-post-Überzeugungen über die Marktnachfrage sind rein referenzpunktabhängig. Hält man das Fundraising konstant, verfolgen Gründer nur ihre Leistung relativ zu ihrem selbst gesetzten Ziel. Am Schwellenwert springt es um eine halbe Standardabweichung, reagiert bei den ersten zehn Punkten danach steil und flacht anschließend ab“
    Menschen formulieren Daten normalerweise nicht so in Worte. Auch die Zusammenfassung wirkt ziemlich inhaltlich aufgeblasen

  • Hier zeigt sich das Problem am deutlichsten
    Der Autor hat in den Prompt geschrieben, dass alle Daten real und verifiziert sein müssten, und hat es dann einfach geglaubt. Sogar bei einem datengetriebenen Projekt. Menschen werden bei unzähligen Dingen genauso vorgehen, sogar bei wichtigen Dingen

    • Hätte ich das im Leben doch nur früher gewusst: Wenn es ohnehin niemand überprüft, hätte ich noch viel mehr glaubwürdig erfinden können
  • Auffällig waren die Stellen „Ich habe 9,5 Stunden daran gearbeitet“ und „Es war nicht perfekt. Als Experte habe ich einige Fehler und Auslassungen entdeckt und die AI sie korrigieren lassen“.
    Ich erwarte weder, an einem Tag so lange an einem Problem zu sitzen, noch dass ich so viel Zeit darauf verwenden würde, ein Ergebnis nachzubessern, dessen zentraler Reward-Loop mehrere Stunden dauert.
    Meine Kunden verlangen derzeit, die Antwortzeit von Agenten von 85 Sekunden auf unter 20 Sekunden zu senken.
    Gleichzeitig wirkt es auf mich äußerst widersprüchlich, wenn sich die Branche in Richtung von mehr als einstündigen Workflows mit Agenten bewegt.

    • Um Claude zu verteidigen — kaum zu glauben, aber ich tue es —: Ich kenne keinen einzelnen Entwickler, der auf Basis eines 19-seitigen Design-Dokuments etwas wie Concord in 9,5 Arbeitsstunden bauen könnte.
      Wir kehren wohl in die Zeit zurück, in der der Chef fragt, warum man nur herumsitzt. Nur dass man statt „Es kompiliert gerade“ dann sagt: „Ich warte auf Claude“.
    • An diesem Punkt würde ich es machen, wenn man mir deutlich mehr Geld zahlt.
    • Mein Opus 4.8 arbeitet regelmäßig mehr als 10 Minuten selbst an nicht ganz trivialen einzelnen Coding-Anfragen.
    • Arbeitszeit ist kein besonders nützlicher Messwert.
      Meist ist es besser, den Prozess direkt als Code zu definieren und diesen Code die Arbeitsblöcke an die Modelle delegieren zu lassen. Das einzige wirkliche Problem ist, dass sich Abo-Rabatte der Anbieter dann schwerer nutzen lassen.
      Umgekehrt wird eigenes Model-Routing einfacher. Ich habe noch nicht gesehen, wie ein gewöhnlicher Chatbot bei Workflows über Tage oder Wochen hinweg Konsistenz halten soll.
    • Ich denke, wir sind schon mit dem Erscheinen der QWEN-Modelle in den Sigmoid-Bereich eingetreten.
      Wenn man ein Projekt sauber strukturiert, kann man auf die gewünschte Erweiterungsstelle zeigen, es etwa 30 Minuten laufen lassen und so die Funktionalität ausbauen. Für einen effektiven „Gott-Modus“ über die gesamte Codebasis reicht es zwar nicht, aber als sorgfältiger Beobachter und Code-Experte braucht man nicht zwingend mehr als 128 GB VRAM.
      Es ist erstaunlich, wie weit aktuelle nicht-dialogorientierte Modelle gekommen sind, und wenn China anfängt, Silizium für solche Modelle zu produzieren, könnten sie das Spiel entscheiden.
  • Ich bin extrem neugierig, wie der Gedicht-Prompt lautete.
    Die Idee kam mir bekannt vor, also habe ich tiefer gegraben und ein 14 Jahre altes Reddit-Gedicht gefunden: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
    Es ist nicht so lang wie das vom Autor geteilte, aber es ist dieselbe Idee.
    Das stammt aus „The Cyberiad“, einer SF-Fabelsammlung des polnischen Autors Stanislaw Lem. In einer Geschichte baut der Roboteringenieur Trurl eine poesieschreibende Maschine, und sein eifersüchtiger Rivale Klapaucian verlangt von ihr: „Ein Gedicht über einen Haarschnitt! Aber erhaben, edel, tragisch und ewig, über Liebe und Verrat, Vergeltung, stillen Heroismus angesichts sicheren Untergangs! Sechs Zeilen, raffiniert gereimt, und jedes Wort muss mit s beginnen!“
    Der Computer antwortet so:
    „Seduced, shaggy Samson snored.
    She scissored short. Sorely shorn,
    Soon shackled slave, Samson sighed.
    Silently scheming,
    Sightlessly seeking
    Some savage, spectacular suicide“
    Es scheint fast unvermeidlich, dass der Autor sich auf diese Szene bezogen hat, als er Fable/Mythos die Herausforderung stellte. Ich würde gern den genauen Prompt kennen.

    • Interessant ist, dass dies die Schwierigkeit der englischen Übersetzung zeigt.
      Die englische Übersetzung verwendet andere Anfangsbuchstaben und andere Wörter als das polnische Original:
      Cyprian cyberotoman, cynik, ceniąc czule
      Czarnej córy cesarskiej cud ciemnego ciała,
      Ciągle cytrą czarował. Czerwieniała cała,
      Cicha, co-dzień czekała, cierpiała, czuwała...
      ... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
      Hier kann man die Arbeit von Übersetzern mit LLMs vergleichen. Beides sind abgeleitete Tätigkeiten, die unter Einschränkungen stattfinden, aber Raum für Kreativität lassen.
    • Vielleicht hat der Autor sich gar nicht auf diese Szene bezogen; da Anthropic Reddit-Kommentare lizenziert hat, könnte das Modell es auch aus den Trainingsdaten aufgesogen haben.
  • Man sollte bedenken, dass der Autor noch nicht einmal eine Stunde damit verbracht hat und daher vermutlich einfach von neuer Technik begeistert ist.
    Bei meinem Projekt (https://github.com/tsz-org/tsz) war ich ständig frustriert darüber, dass die Modelle nicht gründlich genug recherchierten und andere Kontexte nicht berücksichtigten. Immer wieder erzeugte das Modell Code, der eine Sache reparierte und dabei zwei Tests kaputtmachte, die „scheinbar nichts damit zu tun hatten“.
    Fable scheint sich viel mehr Zeit für die Arbeit zu nehmen, und ich habe aus einer Fable-Sitzung noch keinen Pull Request gesehen, aber wenn man die Sitzungsprotokolle liest, sieht man, dass es die richtige Arbeit auf eine Weise macht, bei der kein Stein auf dem anderen liegen bleibt.
    Wie auch im Artikel gesagt wird, ist das „Gefühl“ solcher Modelle je nach Projekt so unterschiedlich, dass es sich schwer vermitteln lässt, aber ich teile es trotzdem.

    • Ist das nicht ein Signal dafür, dass das Projekt vielleicht keine Struktur hat, in der sich Funktionen schrittweise hinzufügen lassen?
  • Ich frage mich, woran ihr alle arbeitet, dass ihr zwischen Mythos und Opus so große Unterschiede spürt.
    Ich denke auch, dass ich ziemlich anspruchsvolle Arbeit mache, aber oft reicht sogar schon DeepSeek allein. Warum sind hier alle Genies?

    • Hängt davon ab, woran man arbeitet.
      Wenn man versucht, ein Videospiel auf dem Niveau guter Indie-Games wie Hades oder Bazaar zu bauen und organische, interaktive, animierte UI-Elemente, visuelle Effekte, komplexe Shader usw. zu erstellen, dann ist kein Modell auch nur annähernd ausreichend, um das einfach mal eben fertigzubekommen. Ein großer Teil der Probleme, die in den besten 3 % der Games auftreten, ist für jedes Modell mit bloßen Prompts wirklich schwer.
      Ich persönlich programmiere und lerne lieber selbst, deshalb ist es mir nicht so wichtig, und etwas wie DeepSeek Flash reicht mir aus. Trotzdem ist es sehr leicht, viele Benchmarks zu bauen, an die selbst die besten Modelle überhaupt nicht herankommen, und ich teste gern, wie sehr Modelle bei solchen Problemen besser werden.
      Übrigens ist Fable 5 definitiv ein bisschen besser als 4.8
    • Das ist ähnlich wie wenn ein neues Notebook angekündigt wird und plötzlich alle Mitarbeitenden ein Upgrade brauchen.
      In Wirklichkeit würden wahrscheinlich 90 % auch mit einem Macbook Neo problemlos klarkommen.
    • Ich setze gerade ein typisches Web-Infrastruktur-Projekt in Rust um.
      Mit vielen guten Rust-Bausteinen wie rustls und Tokio ist das ein Versuch, einen speichersicheren oder nahezu speichersicheren nginx-Ersatz zu bauen.
      Als Teil davon baue ich auch ein hochwertiges Lua-in-Rust-Repository. Mit Mythos versuche ich gerade, ein Performance-Problem in meinem Lua-Interpreter zu beheben, an dem gpt 5.5 und Opus 4.8 gescheitert sind.
      Ich weiß nicht, ob Mythos das lösen kann, aber es läuft seit ein paar Stunden und die Ergebnisse sehen ziemlich vielversprechend aus.
      Falls es jemanden interessiert, hier ist das Performance-Diagramm: https://github.com/ianm199/lua-rs
    • Ich entwickle gerade direkt meine eigene Programmiersprache.
      Ich schaue mich auch nach Open-Source-Projekten um, zu denen ich beitragen könnte. Ich suche nach etwas, das mir beim Übergang vom Hobbyentwickler zum Profi helfen könnte, aber ich weiß nicht, ob so etwas heute überhaupt noch möglich ist.
      Fable 5 hat im Code-Review ziemlich viele Probleme gefunden, die Opus 4.8 übersehen hat. Und das, obwohl das Modell wegen dummer Cybersecurity-bezogener Einschränkungen abgeschwächt wurde. Mehr kann ich schwer sagen, weil man bei Max 5x pro 5-Stunden-Fenster nur eine Session bekommt. Bisher habe ich erst zwei Sessions genutzt.
    • Wenn man die Anforderungen immer weiter hochschraubt, ist es bei keinem Modell schwer, es an seine Grenzen zu bringen.
      Nehmen wir als extremes Beispiel einen Prompt wie: „Baue einen funktionsvollständigen, ausgereiften Facebook-Klon.“ Facebook ist komplex, aber vermutlich technisch nicht extrem schwierig. Trotzdem wird man nach dem Verbrauchen einer beträchtlichen Zahl an Tokens in den Ergebnissen verschiedener Modelle für diesen Prompt in vielerlei Hinsicht erhebliche Unterschiede sehen.
      Natürlich wäre die obige Anfrage praktisch nicht wirklich nützlich. Aber warum sollte man ihnen nicht größere Brocken geben, bis man an die Grenze kommt? Irgendwann erreicht man den Randbereich, und dann werden die Unterschiede klar sichtbar.