- Joshua Rogers hat mit seinem eigenen AI-basierten Toolset eine umfangreiche Liste potenzieller Probleme in der curl-Codebasis gefunden
- Die Liste umfasst nicht nur kleinere Mängel beim Codestil, sondern auch kleine Bugs und potenzielle Sicherheitslücken
- Die meisten gefundenen Probleme sind kleine Bugs, doch 1–2 davon könnten sicherheitskritische Schwachstellen sein
- Da diese Probleme zuvor nicht entdeckt worden waren, ist das Ergebnis tatsächlich sehr wertvoll
- Auf Basis des gemeldeten Inhalts wurden bereits 22 Bugs behoben
- Es bleiben noch mehr als doppelt so viele unbestätigte Issues offen, die weiterhin geprüft und behoben werden
- Die detaillierten Probleme sind mit "Reported in Joshua's sarif data" gekennzeichnet; wer interessiert ist, kann diese Daten direkt prüfen
1 Kommentare
Hacker-News-Kommentare
Statt selbst Code zu schreiben oder zu ändern, soll er mir sagen, welche Stellen im Code verdächtig sind und wo ich genauer hinschauen sollte.
Wenn ich Claude bitte, Bugs in meiner 20.000-Zeilen-C-Bibliothek zu finden, zerlegt es die Dateien, greppt nach bestimmten Code-Mustern und listet am Ende nur meine FIXME-Kommentare auf (lol).
Das ist ehrlich gesagt auf dem Niveau eines simplen bash-Skripts und ziemlich enttäuschend.
ChatGPT ist sogar noch weniger nützlich und wiederholt nur: „Sieht alles gut aus! Großartig! High five~“
Bisher hat mir traditionelle statische Analyse beim Finden echter Bugs deutlich mehr geholfen, aber nur weil die statische Analyse sauber ist, heißt das nicht, dass es keine Logikfehler gibt.
Genau hier sollten LLMs eigentlich glänzen.
Wenn man für LLMs erst eine extrem maßgeschneiderte Umgebung bauen muss, um nützliche Hinweise auf potenzielle Bugs zu bekommen, dann sinkt der praktische Nutzen am Ende genauso wie bei statischen Analysewerkzeugen, die komplexe Konfiguration verlangen und deshalb oft nicht genutzt werden.
Die Richtung „AI schreibt den Code und Programmierer reviewen ihn nur noch“ wirkt deshalb irgendwie falsch.
Natürlich verstehe ich, warum sich das mit dem Ansatz „mehr Codezeilen~“ gut verkaufen lässt.
Zum Beispiel: „Welchen Prompt sollte ich verwenden, damit Claude Code einen Plan erstellt, um Logikfehler effektiv zu prüfen und Kommentare wie FIXME oder TODO zu ignorieren?“
Der resultierende Prompt ist zu lang, um ihn hier zu posten, aber es gibt ein öffentliches Beispiel als Gist.
Darauf aufbauend kann man weiter iterieren und sogar einen Agenten daraus machen.
Nach der kostenlosen Testphase kam es in unserem Entwicklerteam so gut an, dass wir es offiziell eingeführt haben.
Abgesehen von gelegentlichen Fehlalarmen ist es sehr nützlich.
Sowohl PR-Autoren als auch Reviewer sparen damit viel Zeit.
Ich hatte schon Fälle, in denen ich dank solcher Hinweise ein Problem lösen konnte, das mich sonst Stunden gekostet hätte.
Dieses Potenzial von AI macht mir Hoffnung.
Es überrascht mich etwas, dass Antworten wie „Alles sieht gut aus“ überhaupt kamen.
In Codex CLI stellt es oft durchaus Fragen in den Raum.
Gemini 2.5 Pro ist in diesem Punkt ebenfalls okay.
Mit Blick auf die Vorgeschichte ist das vielleicht interessant: HN-Suche zu curl+AI
Am Ende läuft es wohl eher auf den Unterschied hinaus zwischen Leuten, die verstehen, was sie tun, und Leuten, die einfach nach Stimmung coden.
Das steht in deutlichem Kontrast zu den früheren Erlebnissen von Daniel Stenberg mit schlampigen, von AI erzeugten Pseudo-Sicherheitsmeldungen.
Zu HackerOne: „Melder von AI-generiertem Müll werden sofort gebannt. Das ist praktisch DDoS-Niveau. Ich würde ihnen am liebsten sogar die verschwendete Zeit in Rechnung stellen.“
Dazu passt auch Daniels Blogpost vom Januar dieses Jahres: The I in LLM stands for Intelligence?
printf-Formatspezifizierer fürsize_t) lassen sich schon durch korrekt gesetzte Compiler-Warning-Flags erkennen.Wenn AI einem sagt: „Dir fehlen wichtige Compiler-Warnflags“, wäre das durchaus ziemlich nützlich.
Einige PRs dürften wohl auch mit Dependabot-Abgleichen zusammenhängen, und mit „Joshua sarif data“ findet man die konkreteren PR-Listen: Link
Ich vermute, das ist der Grund, warum sich Daniel Stenbergs Eindruck geändert hat.
Es wird viel dafür geworben, AI-basierte SAST-Technik einzuführen, und entsprechende Produkte kommen auch tatsächlich auf den Markt, aber die meisten bleiben bisher hinter den Erwartungen zurück.
Wenn es nur enttäuschend wäre, ginge es ja noch — gefährlich wird es, wenn daraus ein falsches Sicherheitsgefühl entsteht.
Eine kritische Sicht auf AI-basierte SAST-Scanner und die Begründung dazu gibt es hier.
Mich würde interessieren, warum diese Strategie diesmal wirksamer war, obwohl verschiedene andere Tools zuvor keine Bugs gefunden hatten.
Der Mastodon-Link dient vermutlich dazu zu bestätigen, dass es sich trotz fehlerhafter Code-Snippets tatsächlich um echte Bugs handelt.