ProofBench — hybrider AI-Benchmark: symbolische Berechnung + semantikbasiertes Beweisverifikationssystem

(github.com/Flamehaven)

1 Punkte von flamehaven01 2025-10-17 | Noch keine Kommentare. | Auf WhatsApp teilen

TL;DR

ProofBench ist ein Next-Generation-hybrider AI-Benchmark und ein Beweisverifikationssystem, das symbolische Mathematik (SymPy/Pyodide) mit semantischer AI-Analyse (Konsens mehrerer LLMs) kombiniert.

Es bewertet gleichzeitig die logische Struktur und die semantische Gültigkeit von Beweisen, erkennt dadurch Argumentationen, die nur „oberflächlich korrekt“ wirken, und quantifiziert dies mit dem Logic Integrity Index (LII).

🎯 Warum wurde es entwickelt?

Traditionelle Beweisverifikatoren sind

aufgrund ihrer formallogischen Grundlage entweder zu streng und unpraktisch, oder
bleiben auf der Ebene der Syntax stehen und erkennen semantische Fehler nicht, oder
verursachen hohe Rechenkosten, sodass Echtzeit-Feedback schwierig ist.

ProofBench ist ein hybrides AI-Benchmark-Framework, das mit einem „70 % symbolisch + 30 % semantisch“-Ansatz die Strenge symbolischer Verifikation mit dem flexiblen Verständnisvermögen von AI verbindet.

📊 Diese Fragen prüft ProofBench

„Kann AI logische Konsistenz verstehen?“
„Werden Fehlermuster sichtbar, wenn man Beweisstrukturen graphbasiert visualisiert?“
„Wie zuverlässig ist semantikbasierte Bewertung?“
„Ist ein kombinierter symbolisch-semantischer Benchmark für Bildung, Forschung und AI-Evaluierung nützlich?“

🧩 Kennzahlen des hybriden AI-Benchmarks

LII (Logic Integrity Index): zentrale Kennzahl für logische Integrität
Coherence Variance: Übereinstimmung zwischen mehreren Modellen
Symbolic Pass Rate: Anteil mathematischer Konsistenz
Semantic Stability: Rate stabiler Kontextkonsistenz

Diese Werte können künftig zu einem gemeinsamen Standard für die Bewertung von „Logikfähigkeit, Konsistenz und semantischer Interpretationsfähigkeit“ von AI-Modellen weiterentwickelt werden.

🔍 Architekturüberblick

Symbolic Layer — deterministische Verifikation im Browser durch Ausführung von SymPy über Pyodide
Semantic Layer — Bewertung von Antworten mehrerer LLMs auf Konsensbasis
Hybrid Orchestrator — 70/30-Standardgewichtung (anpassbar), Berechnung des Endscores
LII Engine — Berechnung des Logik-Integritätsindex + Konfidenzintervall
Justification Analyzer — Abhängigkeitsgraph + Zykluserkennung
Feedback Generator — erzeugt schrittweise Bewertungsberichte in natürlicher Sprache

⚙️ Kernfunktionen (v3.7.2)

Hybride Verifikations-Engine: Ausführung von SymPy mit Pyodide im Browser + semantische Analyse auf Basis des Konsenses mehrerer LLMs
LII (Logic Integrity Index): Quantifizierung logischer Konsistenz mit einem Score von 0–100 und einem 95%-Konfidenzintervall
Justification Graph: Visualisierung von Abhängigkeitsbeziehungen zwischen Beweisschritten und automatische Erkennung zirkulärer Argumentation
Consensus Manager: Berechnet die Übereinstimmung zwischen mehreren Modellen und erzeugt einen kohärenzbasierten Durchschnittsscore
Natural Feedback Generator: Gibt zu jedem Schritt Fehler und Begründungen in natürlicher Sprache zurück
UI / Dashboard: Visualisierung von Ergebnissen pro Beweisschritt, Graph-Ansicht, Bericht und LII-Score
Docker-Ein-Klick-Start: Sofort nutzbar mit einer einzigen docker run-Zeile

docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000

🧱 Einschränkungen

Die semantische Ebene ist anfällig für komplexe sprachliche Fallstricke (die symbolische Ebene federt dies ab)
LII ist kein formales Beweiszertifikat, sondern ein Qualitätsindikator
Auf leistungsschwachen Geräten entsteht ein Initialisierungsaufwand beim Start von Pyodide

⚡ Gewünschtes Feedback

Ist die Standardgewichtung 70/30 sinnvoll? (ob adaptive weight nötig ist)
Sind LII + Konfidenzintervall als Benchmark für Bildung und Forschung aussagekräftig?
Ist die Erkennung zirkulärer Argumentation in echten Mathematik-/Logikaufgaben nützlich?
Ideen zur Verbesserung von Browser-(Pyodide-)Performance-Engpässen?
Beispiele für Beweise, die „richtig aussehen, aber falsch sind“, sind willkommen 🧩

🗺️ Roadmap

Adaptive Gewichtung nach Abschnitt
Unterstützung für verschiedene Beweisformate (Lean, Coq, Markdown-Formeln usw.)
Ausbau von Exportvorlagen für Berichte auf Basis von LII + Graphen
Aufbau eines Red-Team-Benchmarks (Veröffentlichung einer Sammlung „plausibel, aber falsch“ wirkender Beweise)

🔗 Links

GitHub: https://github.com/Flamehaven/proofbench
Lizenz: MIT

✍️ Entwicklerkommentar

ProofBench ist ein Werkzeug, das testen soll, ob AI nicht nur „Antworten“, sondern auch „Begründetheit“ verstehen kann, und vereint logische Struktur, semantische Konsistenz und Erklärbarkeit in einem einzigen Benchmark.

Es ist nicht nur ein einfacher Verifikator — sondern soll zu einer neuen Experimentierplattform zur Messung der Denkfähigkeit von AI werden.