Kernaussagen insgesamt
- Dieser Bericht fasst die Ergebnisse einer Prüfung von 10 gut sichtbaren Bio-AI-Repositories und angrenzenden wissenschaftlichen Automatisierungs-Repositories mit Stand März 2026 zusammen.
- Die Auswahl erfolgte nicht zufällig, sondern anhand von GitHub-Stars, Häufigkeit technischer Diskussionen und tatsächlicher Sichtbarkeit im Ökosystem.
- Das Audit wurde in zwei Stufen durchgeführt: Stufe 1 war eine technische Codeprüfung mit Bewertung von Repo-Struktur, Entry Points und Ausführung; Stufe 2 bestand aus einer Bewertung mit STEM-AI v1.0.4, einschließlich Dokumentationsintegrität sowie Bewertung von Code, Tests und Governance.
- Fazit: Die meisten sind lauffähig. Ein vertrauenswürdiges Niveau erreichen sie jedoch nicht. Das Fehlen von Governance zeigt die Grenzen von Bio-AI auf.
1. Aktueller Stand von Bio-AI im Jahr 2026
- LLM-basierte Bio-AI-Tools nehmen stark zu.
- Auch der Hype um Agents, Skills und Automatisierungs-Wrapper breitet sich schnell aus.
- Die sichtbare Leistung und Nützlichkeit nehmen zu.
- Es fehlen jedoch Validierungsmechanismen.
- Die Verantwortlichkeiten sind unklar.
- Besonders in Hochrisikobereichen wie der Medikamentenentwicklung ist das gefährlich.
- Insgesamt bleiben Verifikation und Governance deutlich hinter der Geschwindigkeit zurück, mit der sich die Fähigkeiten verbreiten.
2. Audit-Ziele
- Es wurden 10 Zielprojekte ausgewählt.
- Kriterien waren Sichtbarkeit, Einfluss, tatsächliche Exponierung, Häufigkeit der Diskussionen und zentrale Stellung.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. Audit-Methode
- Das Audit wurde in zwei Stufen durchgeführt.
- Stufe 1: Technical Code Audit
- Prüfung der Repository-Struktur.
- Prüfung der Entry Points.
- Prüfung der Orchestrierungsebene.
- Nachverfolgung der Ausführungspfade.
- Prüfung der Output-Pfade.
- Direkte Inspektion der Kern-Dateien.
- Abgleich der README-Behauptungen mit dem tatsächlichen Code.
- Anders gesagt: Im Mittelpunkt stand nicht, „was laut Beschreibung getan wird“, sondern „was tatsächlich geschieht“.
- Stufe 2: Bewertung mit STEM-AI v1.0.4
- Durchführung der S1-Bewertung.
- Prüfung von README und Dokumentationsintegrität.
- Durchführung der S3-Bewertung.
- Prüfung der tatsächlichen Codesubstanz, der Tests, der Änderungsdisziplin und der Mechanismen zur biologischen Integrität.
- Anders gesagt: keine Eindrucksbewertung, sondern eine Punktevergabe nach struktureller Prüfung.
- Audit-Prinzipien
- Es wurde keine vollständig dynamische Reproduktion aller Repositories durchgeführt.
- Stattdessen konzentrierte sich das Audit auf die Teile, die direkt mit den zentralen Behauptungen verbunden sind.
- Bereiche mit hohem Risiko oder großen Widersprüchen wurden vertieft geprüft.
- Wichtiges Prinzip: Die tatsächlich ausführbare Oberfläche hat Vorrang vor der README. Wenn Dokumentation und Code kollidieren, wird nicht nach Dokumentation, sondern nach der Ausführung beurteilt.
- Anders gesagt: Dieses Audit ist eher eine strukturelle Diagnose als ein Reproduktions-Benchmark.
4. Einstufung durch Bewertung
- T0: Kein Vertrauen begründet. Selbst wenn es läuft, ist es schwer, das System als vertrauenswürdig anzusehen.
- T1: Teilweise ist Struktur vorhanden, aber das Vertrauen reicht weiterhin nicht aus. Niveau für Exploration oder Referenz.
- T2: Es gibt sinnvolle Fortschritte, aber für einen überwachten Pilotbetrieb ist es noch nicht ausreichend.
- T3: Mindeststandard, bei dem ein überwachter Pilotbetrieb geprüft werden kann.
- T4: Niveau, bei dem eine Anbindung an Umgebungen mit höherer Ergebnisverantwortung geprüft werden kann.
- Der Bericht definiert T3 als Mindestschwelle für einen überwachten Pilotbetrieb und T4 als Mindestschwelle für die Anbindung an Umgebungen mit höherer Ergebnisverantwortung.
5. Ergebnisse
- Ergebnisse der einzelnen Repositories
- AI-Scientist — 48 Punkte, T1
- Biomni — 17 Punkte, T0
- BioAgents — 30 Punkte, T0
- BioClaw — 29 Punkte, T0
- CellAgent — 15 Punkte, T0
- ClawBio — 63 Punkte, T2
- claude-scientific-skills — 24 Punkte, T0
- LabClaw — 20 Punkte, T0
- SciAgent-Skills — 32 Punkte, T0
- OpenClaw-Medical-Skills — 22 Punkte, T0
- Bedeutung der Ergebnisse
- Bei 8 von 10 ist kein Vertrauen begründet.
- 1 zeigt gewisse strukturelle Ansätze, reicht aber weiterhin nicht aus.
- 1 war das beste Ergebnis, blieb jedoch unter der Mindestschwelle für einen Pilotbetrieb.
- Kein einziges Projekt erreichte T3 oder höher. Das heißt: Kein Repository bestand die Mindestkriterien für einen überwachten Pilotbetrieb.
6. Wiederkehrende Problemmuster
- Überzogene Behauptungen
- Schwache Verifikation
- Mangelnde Nachverfolgbarkeit
- Schwache Fehlergrenzen
- Inkonsistenz zwischen README und Ausführungsrealität
- Fehlende Governance
- Mangelnde Reproduzierbarkeit
- Unklare Grenzen bei Lizenz, Verantwortung und Betrieb
- Es wird von kliniknahen Einsatzfeldern gesprochen, aber die Verantwortungsstruktur ist schwach.
- CI konzentriert sich eher auf Syntax- und Formprüfungen als auf wissenschaftliche Validierung.
- Es wurden Fälle festgestellt, in denen Mocks und Platzhalter wie echte Funktionen wirkten.
- Auch wenn das lokale Design gut aussieht, sind die Deployment-Standardeinstellungen wiederholt riskant.
7. Schlussfolgerung
- Dieser Bericht sagt nicht, dass alle Open-Source-Projekte im Bereich Bio-AI „nutzlos“ sind.
- Der Kernpunkt ist die Betonung, dass kompetent wirkend und vertrauenswürdig nicht dasselbe sind.
- Der Flaschenhals liegt nicht nur in den Modellfähigkeiten; das größere Problem ist das Fehlen von Verifikation, Nachverfolgbarkeit, Verantwortung und Governance.
- Genauer gesagt kann Bio-AI nur dann zu einem vertrauenswürdigen System werden, wenn Strukturen verbessert werden, sodass Behauptungen und Outputs reproduzierbar sind, Grenzen klar definiert sind und institutionelle Prüfungen möglich werden.
8. Zusammenfassung in einem Satz
- Das größte Problem von Bio-AI ist nicht mangelnde Fähigkeit, sondern der Mangel an Verifikation und Governance.
Noch keine Kommentare.