Open-Source-Auditbericht 2026 zu Bio-AI: Prüfung von 10 Projekten zeigt: „Die meisten laufen, aber vertrauenswürdig waren sie kaum.“

(flamehaven.space)

2 Punkte von flamehaven01 2026-03-25 | Noch keine Kommentare. | Auf WhatsApp teilen

Dieser Bericht fasst die Ergebnisse einer Prüfung von 10 gut sichtbaren Bio-AI-Repositories und angrenzenden wissenschaftlichen Automatisierungs-Repositories mit Stand März 2026 zusammen.
Die Auswahl erfolgte nicht zufällig, sondern anhand von GitHub-Stars, Häufigkeit technischer Diskussionen und tatsächlicher Sichtbarkeit im Ökosystem.
Das Audit wurde in zwei Stufen durchgeführt: Stufe 1 war eine technische Codeprüfung mit Bewertung von Repo-Struktur, Entry Points und Ausführung; Stufe 2 bestand aus einer Bewertung mit STEM-AI v1.0.4, einschließlich Dokumentationsintegrität sowie Bewertung von Code, Tests und Governance.
Fazit: Die meisten sind lauffähig. Ein vertrauenswürdiges Niveau erreichen sie jedoch nicht. Das Fehlen von Governance zeigt die Grenzen von Bio-AI auf.

LLM-basierte Bio-AI-Tools nehmen stark zu.
Auch der Hype um Agents, Skills und Automatisierungs-Wrapper breitet sich schnell aus.
Die sichtbare Leistung und Nützlichkeit nehmen zu.
Es fehlen jedoch Validierungsmechanismen.
Die Verantwortlichkeiten sind unklar.
Besonders in Hochrisikobereichen wie der Medikamentenentwicklung ist das gefährlich.
Insgesamt bleiben Verifikation und Governance deutlich hinter der Geschwindigkeit zurück, mit der sich die Fähigkeiten verbreiten.

T0: Kein Vertrauen begründet. Selbst wenn es läuft, ist es schwer, das System als vertrauenswürdig anzusehen.
T1: Teilweise ist Struktur vorhanden, aber das Vertrauen reicht weiterhin nicht aus. Niveau für Exploration oder Referenz.
T2: Es gibt sinnvolle Fortschritte, aber für einen überwachten Pilotbetrieb ist es noch nicht ausreichend.
T3: Mindeststandard, bei dem ein überwachter Pilotbetrieb geprüft werden kann.
T4: Niveau, bei dem eine Anbindung an Umgebungen mit höherer Ergebnisverantwortung geprüft werden kann.
Der Bericht definiert T3 als Mindestschwelle für einen überwachten Pilotbetrieb und T4 als Mindestschwelle für die Anbindung an Umgebungen mit höherer Ergebnisverantwortung.

Ergebnisse der einzelnen Repositories
- AI-Scientist — 48 Punkte, T1
- Biomni — 17 Punkte, T0
- BioAgents — 30 Punkte, T0
- BioClaw — 29 Punkte, T0
- CellAgent — 15 Punkte, T0
- ClawBio — 63 Punkte, T2
- claude-scientific-skills — 24 Punkte, T0
- LabClaw — 20 Punkte, T0
- SciAgent-Skills — 32 Punkte, T0
- OpenClaw-Medical-Skills — 22 Punkte, T0
Bedeutung der Ergebnisse
- Bei 8 von 10 ist kein Vertrauen begründet.
- 1 zeigt gewisse strukturelle Ansätze, reicht aber weiterhin nicht aus.
- 1 war das beste Ergebnis, blieb jedoch unter der Mindestschwelle für einen Pilotbetrieb.
- Kein einziges Projekt erreichte T3 oder höher. Das heißt: Kein Repository bestand die Mindestkriterien für einen überwachten Pilotbetrieb.

Überzogene Behauptungen
Schwache Verifikation
Mangelnde Nachverfolgbarkeit
Schwache Fehlergrenzen
Inkonsistenz zwischen README und Ausführungsrealität
Fehlende Governance
Mangelnde Reproduzierbarkeit
Unklare Grenzen bei Lizenz, Verantwortung und Betrieb
Es wird von kliniknahen Einsatzfeldern gesprochen, aber die Verantwortungsstruktur ist schwach.
CI konzentriert sich eher auf Syntax- und Formprüfungen als auf wissenschaftliche Validierung.
Es wurden Fälle festgestellt, in denen Mocks und Platzhalter wie echte Funktionen wirkten.
Auch wenn das lokale Design gut aussieht, sind die Deployment-Standardeinstellungen wiederholt riskant.

Dieser Bericht sagt nicht, dass alle Open-Source-Projekte im Bereich Bio-AI „nutzlos“ sind.
Der Kernpunkt ist die Betonung, dass kompetent wirkend und vertrauenswürdig nicht dasselbe sind.
Der Flaschenhals liegt nicht nur in den Modellfähigkeiten; das größere Problem ist das Fehlen von Verifikation, Nachverfolgbarkeit, Verantwortung und Governance.
Genauer gesagt kann Bio-AI nur dann zu einem vertrauenswürdigen System werden, wenn Strukturen verbessert werden, sodass Behauptungen und Outputs reproduzierbar sind, Grenzen klar definiert sind und institutionelle Prüfungen möglich werden.

Das größte Problem von Bio-AI ist nicht mangelnde Fähigkeit, sondern der Mangel an Verifikation und Governance.

Verwandte Beiträge